R ´eseaux de Neurones

(1)

M2 STIM -Identification & aide `a la d ´ecision

R ´eseaux de Neurones

clement.chatelain@insa-rouen.fr

26 janvier 2017

clement.chatelain@insa-rouen.fr R ´eseaux de Neurones 26 janvier 2017 1 / 69

(2)

Sommaire

1 Introduction

2 Principes g ´en ´eraux Neurone formel Topologies

3 Apprentissage(s) Posons le probl `eme

R éseau lin éaire à une couche R éseau non lin éaire à une couche R éseaux multicouches

4 Architectures profondes DNN simples

R éseaux r écurrents R éseaux convolutionnels Exemples d’architectures

5 R ´eseaux de neurones dans la pratique Param ´etrisation

Mise en œuvre

(3)

Introduction

Avantage

Fonctionne∀le nombre d’entr ées,∀le nombre de sorties Mod èle pas forc ément lin éaire par rapport aux param ètres Et surtout ... ça marche tr ès bien !

Inconv ´enients

Le crit ère doit être d érivable

Le param étrage et l’apprentissage demandent un peu d’ éxp érience ...

(4)

Introduction

Les r ´eseaux de neurones permettent d’estimer une fonction f :

f :x →y avecx^T = [x₁,x₂, . . . ,x_E]∈R^E Siy ∈R^S, on parle der ´egression

Siy ∈ {C₁,C₂, . . . ,C_S}, on parle declassification Dans ce cas, autant de neurones de sortie que de classe

→Sortiesd ´esir ´eesde la forme :y^d^T = [0,0, . . . ,1, . . . ,0]

Estimation de f :

Apprentissage des poids de connexion entre neurones Sur une base ´etiquet ´ee deNcouples

({x(1),y(1)}, . . . ,{x(n),y(n)}, . . . ,{x(N),y(N)})

(5)

Principes g ´en ´eraux

Id ée g én érale des R éseaux de neurones :

combiner de nombreuses fonctions ´el ´ementaires pour former des fonctions complexes.

Apprendre les liens entre ces fonctions simples `a partir d’exemples

´etiquet ´es

Analogie (un peu commerciale) avec le cerveau : Fonctions ´el ´ementaires = neurones

Connexion = synapse

Apprentissage des connexions = la connaissance

(6)

Principes g ´en ´eraux Neurone formel

Le neurone formel [McCulloch et Pitts, 1943]

Unit é él émentaire : neurone formel

E entr ´eesxe, sortiey

Somme des entr éesxepond ér ée par despoidswe:

α=

E

X

e=1

w_ex_e+b=

E

X

e=0

w_ex_e avec x₀=1 Une fonction d’activationϕ, lin ´eaire ou non :

y =ϕ(α) =ϕ PE

e=0w_ex_e

ϕlin éaire : hyperplan s éparateur ;ϕnon lin éaire : hyperbole dimensionE

(7)

Principes g ´en ´eraux Neurone formel

Le neurone formel [McCulloch et Pitts, 1943]

Diff ´erentes fonctions d’activation

Elles introduisent un intervalle sur lequel le neurone est activ ´e fonction identit ´e

heaviside :ϕ(x) =0 six <0, 1 sinon sigmoide :ϕ(x) =_1+e¹−x

tanh :ϕ(x) = ^e_e^x_x^−e_+e^−x−x =^e^2x⁻¹

e^2x+1

fonction noyau (gaussienne) ReLU

heaviside - tanh - gaussienne - ReLU

(8)

Principes g ´en ´eraux Topologies

Topologies

Il existe de nombreuses mani `ere d’organiser les neurones en r ´eseau :

R ´eseau en couches (adaline, perceptron, perceptron multicouches, RBF)

R éseau totalement interconnect é (Hopfield, Boltzmann) R éseau r écurrent (LSTM)

R ´eseau `a convolution (TDNN, SDNN)

R ´eseau avec beaucoup de couches ! (architectures profondes)

(9)

R ´eseaux en couches (1)

Chaque neurone d’une couche est connect é à tous les neurones des couches pr éc édentes et suivantes

R ´eseaux ditsfeedforward: propagation des entr ´ees de couches en couches vers la sortie

Structure la plus r ´epandue

Algorithmes d’apprentissage des poids efficaces

(10)

R ´eseaux en couches (2)

Variantes

Une couche, fonction d’activation heaviside, une sortie :perceptron [Rosenblatt 1957]

Si plus d’une couche : couches dites

cach ´ees, perceptron multicouches Si beaucoup de couches : architectures profondes

(11)

R ´eseaux totalement interconnect ´es

R ´eseaux de Hopfield, Machines de Boltzmann

Tous les neurones sont connect ´es entre eux Difficile `a entrainer

N’a jamais vraiment prouv é son utilit é sur des probl èmes r éels

→int ér êt essentiellement th éorique

(12)

R ´eseaux r ´ecurrents

Adapt ´e aux s ´equences

Permet de prendre en compte le contexte

On calculey(n)`a partir de :

I x(n)les entr ´ees courantes

I y(n−1)les sorties de l’exemple pr ´ec ´edent

(provenant d’une m ême s équence) Hypoth èse'Markovienne

(13)

R ´eseaux convolutionnels

Poids partag ´es, connexions locales

Apprentissage de configurations particuli `eres

(14)

Apprentissage(s) Posons le probl `eme

Plan

1 Introduction

Mise en œuvre

(15)

Notations (1)

Les donn ´ees

On dispose d’une base ´etiquet ´ee deNcouples{x(n),y^d(n)}

X∈R^E×N,Y^d ∈R^S×N

X={x(n)}=











 x1(n)

... x_E(n)













=







x1(1) . . . x1(N) ... . .. x_e(n) ... x_E(1) . . . x_E(N)







Y^d ={y^d(n)}=











 y₁^d(n)

... y_E^d(n)













=







y₁^d(1) . . . y₁^d(N) ... . .. y_s^d(n) ... y_S^d(1) . . . y_S^d(N)







(16)

Notations(2)

Le r ´eseau (en couche)

E entr ´ee,Ssorties

Le r ´eseau comporteΛcouches

W^λmatrice des poids entre couchesλ−1 etλ On appeleray^d(n)la sortied´esir ´ee pour l’exemplen

Si :

- la coucheλ−1 contientn_i neurones - la coucheλn_j neurones,

alors : W^λ={w_ji}=







w₁₁ . . . w_1i . . . w_1n_i w_j1 ... w_ji ... w_jn_i w_n_j₁ . . . w_n_j_i . . . w_n_j_n_i





 x ∈R^E

◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦◦

◦ ◦ ◦ ◦ ◦ y ∈R^S

W¹ W² W³ W^Λ−1 W^Λ

layer 1 layer 2 layerΛ−1

layerΛ

(17)

Le probl `eme

Rappel : on souhaite estimer f :

Apprentissage sur la base des poids de connexion entre neuronesW

→ Crit `ere

Crit ère des moindres carr és (d érivable) :

J(W) =

N

X

n=1

e(n)^Te(n) avec e(n) =

y(n)−y^d(n) Qu’on peut r ´e ´ecrire en sommant sur les sorties :

J(W) =

S

X

s=1 N

X

n=1

(es(n))²=

S

X

s=1

J(Ws) (1)

Aveces(n) = ys(n)−y_s^d(n)

(18)

Apprentissage(s) R éseau lin éaire à une couche

Plan

1 Introduction

Mise en œuvre

(19)

R éseau lin éaire à une couche (1)

Une couche de neurones avec une fonction d’activationϕ=identit ´e

poids :W={w_se}=





 W₁^T

... W_S^T





=







w11 . . . w_1E ... wse ... wS1 . . . wSE







Propagation 1 ex. sur une sortie :y_s(n) =W_s^Tx(n)

ys

=

ws1 . . . wsE

×





 x1

.. . xE







Propagation 1 ex. sur toutes les sorties :y(n) =Wx(n)





 y1

.. . yS







=







w11 . . . w1E

..

. wse

.. .

wS1 . . . wSE







×





 x1

.. . xE







PropagationNex. surSsortie :Y=WX







y d1(1) . . . . . . y d1(N) ..

. ..

. y ds(n) .. . y dS(1) . . . . . . y dS(N)







=







w11 . . . w1E

..

. wse

.. .

wS1 . . . wSE







×







x1(1) . . . . . . x1(N)

.. .

... xe(n) .. .

xE(1) . . . . . . xE(N)







(20)

R éseau lin éaire à une couche (3)

SiY=WX, alorsY^T =X^TW^T ...

... qui est de la formeY =XΘ, en remplacantXetYpar leur transpos ´ees, etΘparW^T

En appliquant les MC, on obtientW^T_MC = (XX^T)⁻¹XY^T D’ou :W_MC =YX^T(X^TX)⁻¹

Conclusion

Apprentissage OK avec les MC, mais : Pas de non lin ´earit ´e = pas terrible Une seule couche = pas terrible

(X^TX) à inverser : potentiellement tr ès lourd (mais MC r écursifs possibles)

Introduction d’une fonctionϕnon lin ´eaire

(21)

Apprentissage(s) R éseau non lin éaire à une couche

Plan

1 Introduction

Mise en œuvre

(22)

R éseau non lin éaire à une couche (1)

Introduction d’une fonction ϕ non lin ´eaire

On a doncY=ϕ(WX), et les MC ne sont plus applicables

On va appliquer une m ´ethode de descente de gradient→rappels !

Algorithme it ératif : On choisit unW_t=0al éatoire Bonne direction = celle o ú le crit ère baisse

Avancer un peu, mais pas trop

W

t+1

← W

t

− η d J (W) dW

Wt

avec :

Wles param `etres ; η: le pas ; ^dJ_dW^(W) _W

t

: labonnedirection

(23)

R éseau non lin éaire à une couche (2)

Crit `ere

Pour un r éseau à une couche contenant une FNLϕ:y(n) =ϕ(Wx(n)) Le crit ère s’ écrit donc :

J(W) =

N

X

n=1

y^d(n)−ϕ(Wx(n))2

On d ´erive pour appliquer le gradient :W_t+1←W_t−η ^dJ_dW^(W) Wt

dJ(W)

dW = −2

N

X

n=1

y^d(n)−ϕ(Wx(n))

×dϕ(Wx(n)) dW

= −2

N

X

n=1

y^d(n)−ϕ(Wx(n))

×ϕ⁰(Wx(n))x(n)

(24)

R éseau non lin éaire à une couche (3)

Application du gradient dJ(W)

dW =−2

N

X

n=1

y^d(n)−ϕ(Wx(n))

×ϕ⁰(Wx(n))x(n)

Deux cas de figure :

Si ϕ n’est pas d ´erivable (ex. heaviside) : c¸a ne marche pas !

Approximation lin éaire de la d ériv ée : algo adaline [Widrow & Hoff 1960]

dJ(W) dW =−2

N

X

n=1

y^d(n)−ϕ(Wx(n))

×x(n)

Si ϕ est d ´erivable (ex. sigmoide, tanh) : c¸a marche !

Dans ce cas on applique la descente de gradient

Remarque : dans le cas d’une fonction identit ´e,ϕ⁰=1 : c¸a marche OK pour une couche, et pour plusieurs ?

(25)

Apprentissage(s) R ´eseaux multicouches

Plan

1 Introduction

Mise en œuvre

(26)

R ´eseaux multicouches (1)

C’est le perceptron multicouches (PMC ou MLP)

→Couches dites cach ´ees

FNLϕ, peuvent ˆetre6=suivant les couches

Exemple d’un r ´eseau `a deux couches

E entr ´ee,Ssorties,J neurones en couche cach ´ee

W¹∈R^J×Epoids entre lesx et la couche 1 W²∈R^S×J poids entre les couches 1 et 2 z(n)∈R^J : variable interm ´ediaire

ϕ¹: sigmoide ;ϕ²: softmax x(n)∈R^E

◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦ y(n)∈R^S

z(n)

J =7 S=5

W¹={w_je} W²={w_sj}

W¹={wje}=







w11 . . . w_1E

wj1 . .. wjE

wJ1 . . . wJE





 W²={wsj}=







w11 . . . w_1J

ws1 . .. wsJ

wS1 . . . wSJ







(27)

R ´eseaux multicouches (2)

Propagation d’un exemple :

couche 1 : somme pond ´er ´eeα¹_j =P

ew_jex_e, puisz_j =ϕ¹ α¹_j) couche 2 : somme pond ´er ´eeα²_s =P

jwsjzj, puisys=ϕ² α²_s)

Apprentissage : R ´etropropagation du gradient [Rumelhart 86]

Initialiser lesW^λau hasard

1 Propager un exemplex(n)pour calculery(n)

2 Calculer l’erreur(y^d(n)−y(n))

3 R étropropager le crit èreJ = (y^d(n)−y(n))² à traversW2...

4 ... puis `a traversW₁

On passe tous les exemples de la base, et on it `ere tant qu’on n’est pas satisfait

(28)

R ´eseaux multicouches (3)

Chaque sortie s’ ´ecrit :

ys=ϕ²



 X

j

w_sjϕ¹ X

e

w_jexe

!



Doncle crit `ereJ =1/2P

s(y_s^d−ys)²d ´epend de(wje, ϕ¹,wsj, ϕ²).

Apprentissage de w

je

et w

sj

:

Descente de gradient :

w_{je t+1}←w_{je t}−η ∂J

∂w_je w_{je t}

et w_{sj t+1}←w_{sj t}−η ∂J

∂w_sj w_{sj t}

Probl ème : comment calculer les d ériv ées partielles du crit ère ?

(29)

R ´eseaux multicouches (3)

On commence par le calcul de : ∂J

∂w_sj

=

^∂J_∂y

s

×

_∂α^∂y^s₂

s

×

_∂w^∂α²^s

sj

∂J

∂y_s = ∂

∂y_s 1 2

S

X

s=1

(y_s^d−y_s)²=−(y_s^d−y_s)

∂y_s

∂α²_s = ∂

∂α²_sϕ²(α²_s) =ϕ²⁰(α²_s)

∂α²_s

∂w_sj = ∂

∂w_sj

J

X

j=1

w_sjz_j =z_j

Finalement : _∂w^∂J

sj

= −(y

_s^d

− y

s

) × ϕ

²⁰

(α

²_s

) × z

j

= Erreur

s

z

j

Cette quantit ´e repr ´esente l’erreur sur la sortiesdue au neuronej

(30)

R ´eseaux multicouches (4)

On enchaine avec le calcul de : ∂J

∂w_je

=

^∂J_∂z

j

×

_∂α^∂z^j₁

j

×

^∂α

1 j

∂w_je

∂J

∂zj

= X

s

∂J

∂α²s

×∂α²_s

∂zj

1er terme : rouge*vert du slide pr´ec´edent

= X

s



−(ys^d−ys)×ϕ²⁰(α²s)× ∂

∂zj

X

j

wsjzj



=−X

s

(y_s^d−ys)×ϕ²⁰(α²s)×wsj

∂zj

∂α¹_j = ∂

∂α¹_jϕ¹(α¹j)=ϕ¹⁰(α¹j) ∂α¹_j

∂wje

= ∂

∂wje

X

e

wjexe=xe

Finalement :

∂J

∂wje

= − P

s

(y

_s^d

− y

s

) × ϕ

²⁰

(α

²_s

) × w

sj

× ϕ

¹⁰

(α

¹_j

) × x

e

= Erreur

j

x

e

Cette quantit é repr ésente l’erreur sur le neuronej due à l’entr éee

(31)

R ´eseaux multicouches (5)

On r ´ecapitule :

Algorithm 1Backpropagation algorithm η←0.001

W1←rand(J,E) W2←rand(S,J)

while(erreurApp≤)do forn=1→Ndo

propagatex(n): computez(n)andy(n) computeError_S

W²←W²−η∗Error_S∗z(n) computeErreurJ

W¹←W¹−η∗ErrorJ∗x(n) end for

end while

(32)

R ´eseaux multicouches (5’)

On r ´ecapitule, en matlab :

Function grad = retropropag(x,yd,W1,W2) ...

a1 = [x ones(n,1)]*W1 ; x1 = tanh(a1) ; a2 = [x1 ones(n,1)]*W2 ; y = a2 ; errorS = -(yd-y).*(1-y.*y) ;

GradW2 = [x1 ones(n,1)]’* errorS ;

errorJ = (w2(1 :n2-1, :)*errorS’)’.*(1-x1.*x1) ; GradW1 = [x ones(n,1)]’* errorJ ;

w1 = w1 - pas1 .* GradW1 ; w2 = w2 - pas2 .* GradW2 ;

(33)

G ´en ´eralisation (Y.Lecun, voir cours du 12/02/16

¹

)

R ´eseau Feedforward :

Empilement de couchesF_i calculant une sortieH_i à partir d’une entr ée H_i−1, et éventuellement de param ètresW_i et de la sortieY. Exemples :

Couche lin ´eaire :

Hi =Fi(Hi−1,Wi) =WiHi−1

Couche fonction d’activation

(f :tanh, ReLU, Softmax, etc.) : H_i =F_i(H_i−1) =f(H_i₋₁) Couche MSE :

H_i =F_i(H_i−1,Y) =||W_iHi−1−Y||²

MLP classique :

1. https://www.college-de-france.fr/site/yann-lecun/

course-2016-02-12-14h30.htm

(34)

G ´en ´eralisation (2)

Gradients et Backprop

Ainsi, on peut faire abstraction des couches Calcul des gradients :

∂J

∂H_i−1 = ∂J

∂H_i × ∂H_i

∂H_i₋₁

Pour les couchesFi qui en comportent : Mise `a jour des poids

∂J

∂W_i = ∂J

∂H_i × ∂H_i

∂W_i

On applique ces deux équations de mani ère r écursive :

I le terme en bleu étant calcul é pr éc édemment

I les termes en magenta et vert sont `a instancier suivant le type de couche

(35)

G ´en ´eralisation (3)

Instanciation des F

i

les plus courants :

Couche lin ´eaire :Hi =Fi(Hi−1,Wi) =WiHi−1donc :

∂H_i

∂Hi−1

=Wi ; ∂H_i

∂Wi

=Hi−1

Couche activation :H_i =F_i(H_i−1) =f(Hi−1) avecf :tanh, sigmoide, ReLU, Softmax, etc. donc :

∂Hi

∂H_i−1

=f⁰(Hi−1)

Couche MSE :Hi =Fi(Hi−1,Y) =||W_iHi−1−Y||²donc :

∂Hi

∂Hi−1

=2W_i ×(W_iHi−1−Y)

(36)

G ´en ´eralisation (4)

Algo de backprop generique pour L couches

foreach sample fori =1 toL

∂J

∂Hi−1 ← _∂H^∂J

i ×_∂H^∂Hⁱ

i−1

∂J

∂Wi ← _∂H^∂J

i ×_∂W^∂Hⁱ

i // si n ´ecessaire endfor

end foreach

(37)

R ´eseaux multicouches (6)

Remarques :

On peut sommer les erreurs de plusieurs exemples et r ´etropropager une seule fois

→mode online/Batch/minibatch

Question du pas ... 2 `eme ordre ? Cf. cours gradient

Quand stopper l’algorithme ? Attention au surapprentissage

(38)

R ´eseaux multicouches (7)

Dimensionnement

Combien de neurones par couches / Combien de couches ? Une seul couche suffit pour estimer n’importe quelle fonctionf, pourvu que :J → ∞etN → ∞[Lippman 87]

Solution : rajoutons des couches !

,Backprop g én éralisable avec plusieurs couches cach ées ,Fronti ères de d écision plus complexes

,Repr ´esentation de haut niveau des donn ´ees

/Mais l’ ´energie de l’erreur est trop faible pour modifier les couches basses

→ Deep learning !

(39)

Architectures profondes DNN simples

Plan

1 Introduction

Mise en œuvre

(40)

MLP vs. SVM vs. Architectures profondes

1985 - 1995 : l’essor des r ´eseaux de neurones

Emergence de nombreuses applications industrielles : Reconnaissance d’ ´ecriture, de la parole, etc.

1995 - 2005 : La suppr ´ematie des Support Vector Machines

Classifieurs aux bases th ´eoriques fortes

Excellentes capacit és de g én éralisation, perf. à l’ état de l’art R éseaux de neurones = has been . . .

2006 - 20 ? ? : Le retour des r ´eseaux de neurones

Hinton, G. E., Osindero, S. and Teh, Y. A fast learning algorithm for deep belief nets. Neural Computation, 18, pp 1527-1554 (2006)

R ´eseaux de neurones profonds

Architectures connues, nouveaux algo d’apprentissage

Performances permettant d’envisager de nouvelles applications

(41)

Architectures profondes (1)

Principe

R ´eseau feedforward comportantΛcouches, avecΛ>2

W^λmatrice des poids entre couchesλ−1 etλ backprop insuffisante→comment faire ?

Apprentissage en deux temps

Apprentissage des couches dites basses, en non supervis ´e

I Utilisation des autoencodeurs

I Couches dites de mod `eles

Apprentissage des derni `eres couches en supervis ´e

I Backpropagation

I Couches dites de decision

x ∈R^E

◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦◦

◦ ◦ ◦ ◦ ◦ y ∈R^S

W¹ W² W³ W^Λ−1 W^Λ

layer 1 layer 2 layerΛ−1

layerΛ

(42)

Architectures profondes (2)

Auto Associateurs (AA)

Un AA cherche à apprendre ses propres entr ées : on veuty^d =x Apprentissage d’un encodeure(x)et d’un d écodeurd((e(x)) R éseau à une couche cach éeeet une couche de sortied Crit ère :J = (ˆx−x)²= (d(e(x))−x)²

Si le nombre de neurones deeest

<E:

Compression, repr ´esentation parcimonieuse dex

x

◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦◦

xˆ=d(e(x))

e d

(43)

Architectures profondes (3) : Apprentissage

pre-training

Apprendre un AA surx.

Gardere¹(x) =H¹, jeterd¹(e¹(x)) Apprendre un nouvel AA sure¹(x) Gardere²(e¹(x)) =H², jeterd² etc.

fine-tuning

d ´everrouiller tous lesH^λ rajouter une ou

plusieurs couches backpropagation sur l’ensemble du r ´eseau

(44)

Architectures profondes R ´eseaux r ´ecurrents

Plan

1 Introduction

Mise en œuvre

(45)

R ´eseaux de neurones et s ´equences

Comment traiter des S ´equences avec des r ´eseaux de neurones ?

Parole, ´ecriture, cours de la bourse, image (2D), etc.

Signaux de taillevariable→n ´ecessit ´e de classifieursdynamiques

1 `ere solution : r ´eseaux de neurones / classifieur dynamique

R ´eseaux de neurones / Hidden Markov Model

= classification locale / mod ´elisation de s ´equence

(46)

2 ème solution : R éseaux r écurrents (1)

Connexions r ´ecurrentes

Permet de prendre en compte le contexte

On calculey(n) à partir dex(n)ety(n−1)les sorties de l’observation pr éc édente

Question :

Comment apprendre les poids des connexions r ´ecurrentes ?

1 BackProp Through Time (BPTT)

2 Real Time Recurrent Learning (RTRL)

(47)

R ´eseaux r ´ecurrents (2)

Backpropagation Through Time (BPTT)

Id ée : d éplier le r éseauRpour l’approximer par un r éseau non r écurrentR^∗

Structure temporelle→structure spatiale surk pas

Les poids des connexions r écurrentes sont copi és et attribu és à des connexions non r écurrentes deR^∗.

Les copies des connexions poss èdent toutes la m ême pond ération.

Les premiers neurones rouges et bleus sont initialis ´es au hasard

(48)

R ´eseaux r ´ecurrents (3)

Backpropagation Through Time (BPTT), suite

Une fois d ´epli ´e, on applique une backprop classique

→k limit ´e = contexte limit ´e ...

(49)

R ´eseaux r ´ecurrents (4)

Real Time Recurrent Learning (RTRL) [Williams 1989]

La sortie du neuronej recoit :

tous lesx(t)de la couche pr éc édente pond ér és parw_je tous lesy(t−1)de sa couche pond ér és par deswjj⁰

yj(t) =ϕ





E

X

e=0

wjexe(t) +

J

X

j⁰=0

wjj⁰yj⁰(t−1)





RTRL : apprentissage

Crit `ereJ = (y_j^d−y_j)² Calcul des _∂w^∂J

sj

,

_∂w^∂J

je

et

_∂w^∂J

jj0 pour appliquer le gradientclassique deuxi `eme ordre possible

Complexit ´e importanteO(N⁴)

(50)

BLSTM

Bidirectionnal Long Short Term Memory

A. Graves and J. Schmidhuber. Offline handwriting recognition with multidimensional recurrent neural networks. NIPS, 2009

Mod élisation des d épendences à court/long terme Neurone formel avec m émoire (cell) + gates Apprentissage par BPTT

Ex. de Perf HWR : 83%→91%WER

Et aussi : Utilisation en g én ération. D émo :

http://www.cs.toronto.edu/˜graves/handwriting.html

(51)

Architectures profondes R ´eseaux convolutionnels

Plan

1 Introduction

Mise en œuvre

(52)

Convolutional neural network (1)

R ´eseaux de neurones convolutionnels

Destin ´e `a traiter les images

M écanisme de poids partag és→moins de param ètres, meilleure g én éralisation

Apprentissage de filtres par backprop classique

(53)

Convolutional neural network (2)

(54)

Architectures profondes Exemples d’architectures

Plan

1 Introduction

Mise en œuvre

(55)

Bibliographie

La comp ´etition ImageNet

ImageNet

>14M d’images, 1000 classes (objets, animaux, sc `enes, etc.) Images couleur 512∗512

(56)

Bibliographie

Les architectures pour traiter ImageNet

VGG16, VGG19, AlexNet, GoogleNet, ResNet (L>150 !), etc.

performance : de l’ordre de qq % d’erreur en 2015 (3.52% pour resnet)

(57)

Bibliographie

Transfer learning

Comment faire quand on a peu de donn ´ees ?

Utiliser un r éseau pr é-appris (AlexNet, VGG16, etc.) sur une tr ès grosse base (ImageNet)

Fit des donn ées et des couches de sorties R éapprentissage sur le nouveau jeu de donn ées

(58)

Bibliographie

Caption Generation

(59)

Bibliographie

Semantic Segmentation (1)

Etiquetage des pixels d’une image ´

Nombreuses applications en CV : automobile, m ´edical, etc.

Probl ème à sorties structur ées (ciel est souvent au dessus de l’herbe) T âche difficile car dimension des entr ées et des sorties importantes

(60)

Bibliographie

Semantic Segmentation (2)

SegNet (d ´emo surhttp://mi.eng.cam.ac.uk/projects/segnet/), detectNet, etc.

(61)

Bibliographie

Semantic Segmentation (3)

Input/Output Deep Architecture [4, 5]

1 Pr éapprentissage des entr ées = repr ésentation des donn ées

2 Pr ´eapprentissage des sorties = app. des connaissances a priori

3 Fine tuning = apprentissage classique du lien entre entr ´ees et sorties

(62)

R ´eseaux de neurones dans la pratique

Plan

1 Introduction

2 Principes g ´en ´eraux

3 Apprentissage(s)

4 Architectures profondes

Mise en œuvre

(63)

R ´eseaux de neurones dans la pratique

Avantages et Inconv ´enients

Avantages

Un RdN approxime des probabilit és à posteriorip(C_i/x) Tr ès rapide en d écision

Supporte tr ès bien les grandes dimensions (E>qq centaines) Performances : architectures profondes à l’ état de l’art sur plusieurs probl èmes

Inconv ´enients

Param ´etrisation

Apprentissage long et parfois difficile à contr ôler (minimum locaux) N écessite bcp de donn ées

(64)

R ´eseaux de neurones dans la pratique Param ´etrisation

Param ´etrisation/choix du r ´eseau

Nombre de couches

Probl ème ”simple”, carac disponibles : MLP avec 1 ou 2 couches Sinon : Architecture profonde : Pas de caract éristiques à extraire,, mais plus d’hyperparam ètres/

Si image/vid ´eo : CNN / LSTM

Si s ´equence (texte, signal, etc.) : LSTM

Nombre de neurones couches cach ´ees

Classique : moyenne g éom étrique ou arithm étique de (E,S) Avec des deep : + difficile, premi ère couche + grande queE

Fonction d’activation ϕ

Old school :tanh, sigmoide ; new : ReLU (Rectified Linear Unit)

(65)

Param ´etrisation/choix du r ´eseau

R ´eglage du pas (voir cours Gradient)

pas fixe : petit ( 10⁻³, 10⁻⁴, 10⁻⁵, ...) pas adaptatif : diminue avec les it ´erations

line search : calcul du pas ”id éal” à chaque it ération

M éthode du deuxi ème ordre (gradient conjugu é), + de calculs

Les donn ´ees

Centr ´ees r ´eduites : c’est mieux

Taille de la base d’app : the more, the better (>E²/ classe) Attention aux bases non balanc ´ees

M ´elanger les donn ´ees

Choix du crit `ere

Classification : plut ˆot cross entropy Regression : plut ˆot MSE

(66)

Les donn ´ees

DATA DATA DATA DATA DATA DATA DATA DATA The more, the better !

Centr ées r éduites : c’est mieux Attention aux bases non balanc ées M élanger les donn ées

Online/batch/mini batch App/Valid/Test

Datasets publics

Assez rares

Souvent diff ´erents de notre probl `eme

Mais peuvent être utilis és à travers le transfer learning

ImageNet, Rimes, MNIST, STREET dataset (num ´eros google), etc.

(67)

R ´eseaux de neurones dans la pratique Mise en œuvre

Mise en œuvre, pointeurs

∃ de nombreuses librairies

La plupart sont bas ´ees sur Theano (python, Montreal)^aet TensorFlow (Google)^b

Keras (python)https://keras.io/

Torch7 (lua) (NEC)http://torch.ch/

pybrain (python, TUM Munich)http://pybrain.org/

Caffe (Berkeley)http://caffe.berkeleyvision.org/

a. http://deeplearning.net/software/theano/

b. https://www.tensorflow.org

Pointeurs int ´eressants :

Les cours de Yann Lecun au coll `ege de France

https://www.college-de-france.fr/site/yann-lecun/

Chaine Youtube de H. Larochelle :http://tinyurl.com/lpkvjm4

(68)

Exercices

Exercice A : MLP from scratch

Coder en matlab/octave un MLP à 1 couche cach ée, sans librairie Tester les hyperparam ètres :η; nb d’it ération, nb de neurones, etc.

Base ? MNIST

Exercice B : Utilisation de tensorFlow + Keras

Tester les CNN pour une t ˆache de classif Tester le transfer learning

Tester les RNN ...

Exercice C : Utilisation sur un pb perso

Pr édiction r ésultats sportifs, de temp érature Apprendre au r éseau à parler

...

(69)

Bibliographie

F. Rosenblatt. Principles of Neurodynamics. New York : Spartan, 1962.

C.M. Bishop. Neural networks for pattern recognition, Oxford : Oxford University Press, 1995.

D.E. Rumelhart, G.E. Hinton and R.J. Williams. Learning internal representations by error propagation. Parallel Distributed Processing Explorations in the Microstructure of Cognition. MIT Press, Bradford Books, vol. 1, pp. 318-362, 1986.

J. Lerouge, R. Herault, C. Chatelain, F. Jardin, and R. Modzelewski,

”Ioda : an input output deep architecture for image labeling”, Pattern recognition, vol. 48, iss. 9, p. 2847-2858, 2015.

Soufiane Belharbi, Cl ément Chatelain, Romain H érault, S ébastien Adam : Input/Output Deep Architecture for Structured Output Problems.

CoRR abs/1504.07550 (2015)