Neural Networks : Part I

(1)

Neural Networks : Part I

[email protected]

2 f ´evrier 2018

(2)

Sommaire

1 Introduction

2 Principes g ´en ´eraux Neurone formel Topologies

3 Apprentissage(s) Posons le probl `eme

R éseau lin éaire à une couche R éseau non lin éaire à une couche R éseaux multicouches

4 Architectures profondes

Historique et Principes g én éraux Pr é apprentissage

R ´eseaux convolutionnels Regularisation

ImageNet

5 R ´eseaux de neurones dans la pratique Param ´etrisation

Mise en œuvre

(3)

Introduction

Avantage

Fonctionne∀le nombre d’entr ées,∀le nombre de sorties Mod èle pas forc ément lin éaire par rapport aux param ètres Performances à l’ état de l’art

Inconv ´enients

Le crit ère doit être d érivable

Le param ´etrage et l’apprentissage demandent un peu d’exp ´erience ...

(4)

Introduction

Les r ´eseaux de neurones permettent d’estimer une fonction f :

f :x →y

avecx^T = [x₁,x₂, . . . ,x_E]∈R^Eune image, un texte, une mol ´ecule, etc.

Siy ∈R^S, on parle der ´egression

Siy ∈ {C₁,C₂, . . . ,C_S}, on parle declassification Dans ce cas, autant de neurones de sortie que de classe

→Sortiesd ´esir ´eesde la forme :y^d^T = [0,0, . . . ,1, . . . ,0]

Estimation de f :

Apprentissage des poids de connexion entre neurones Sur une base ´etiquet ´ee deNcouples

({x(1),y(1)}, . . . ,{x(n),y(n)}, . . . ,{x(N),y(N)})

(5)

Principes g ´en ´eraux

Id ée g én érale des R éseaux de neurones :

combiner de nombreuses fonctions ´el ´ementaires pour former des fonctions complexes.

Apprendre les liens entre ces fonctions simples `a partir d’exemples

´etiquet ´es

Analogie (un peu commerciale) avec le cerveau : Fonctions ´el ´ementaires = neurones

Connexion = synapse

Apprentissage des connexions = la connaissance

(6)

Principes g ´en ´eraux Neurone formel

Le neurone formel [McCulloch et Pitts, 1943]

Unit é él émentaire : neurone formel

E entr ´eesxe, sortiey

Somme des entr éesxepond ér ée par despoidswe:

α=

E

X

e=1

w_ex_e+b=

E

X

e=0

w_ex_e avec x₀=1 Une fonction d’activationϕ, lin ´eaire ou non :

y =ϕ(α) =ϕ PE

e=0w_ex_e

ϕlin éaire : hyperplan s éparateur ;ϕnon lin éaire : hyperbole dimensionE

(7)

Le neurone formel [McCulloch et Pitts, 1943]

Diff ´erentes fonctions d’activation

Elles introduisent un intervalle sur lequel le neurone est activ ´e fonction identit ´e

heaviside :ϕ(x) =0 six <0, 1 sinon sigmoide :ϕ(x) =_1+e¹−x

tanh:ϕ(x) = ^e_e^x_x^−e_+e^−x−x = ^e^2x⁻¹

e^2x+1

fonction noyau (gaussienne) ReLU

heaviside - tanh - gaussienne - ReLU

(8)

Principes g ´en ´eraux Topologies

Topologies

Il existe de nombreuses mani `ere d’organiser les neurones en r ´eseau :

R ´eseau en couches (adaline, perceptron, perceptron multicouches, RBF)

Lorsqu’il y a beaucoup de couches : ”architectures profondes”

Lorsque des param ètres sont partag és : R éseau à convolution (CNN) R éseau totalement interconnect é (Hopfield, Boltzmann)

R ´eseau r ´ecurrent (LSTM)

(9)

R ´eseaux en couches (1)

Chaque neurone d’une couche est connect é à tous les neurones des couches pr éc édentes et suivantes

R ´eseaux ditsfeedforward: propagation des entr ´ees de couches en couches vers la sortie

Structure la plus r ´epandue

Algorithmes d’apprentissage des poids efficaces

(10)

R ´eseaux en couches (2)

Profondeur du r ´eseau

Une couche, fonction d’activation heaviside, une sortie :perceptron [Rosenblatt 1957]

Si plus d’une couche : couches dites

cach ´ees, perceptron multicouches Si beaucoup de couches : architectures profondes

Remarque : couche dite ”basse” = vers les entr ´ees

(11)

R ´eseaux convolutionnels

Poids partag ´es, connexions locales

Apprentissage de configurations particuli `eres

(12)

R ´eseaux totalement interconnect ´es

R ´eseaux de Hopfield, Machines de Boltzmann

Tous les neurones sont connect ´es entre eux Difficile `a entrainer

N’a jamais vraiment prouv é son utilit é sur des probl èmes r éels

→int ér êt essentiellement th éorique

(13)

R ´eseaux r ´ecurrents

Adapt ´e aux s ´equences

Permet de prendre en compte le contexte

On calculey(n)`a partir de :

I x(n)les entr ´ees courantes

I y(n−1)les sorties de l’exemple pr ´ec ´edent

(provenant d’une m ême s équence) Hypoth èse'Markovienne

(14)

Apprentissage(s) Posons le probl `eme

Plan

1 Introduction

ImageNet

Mise en œuvre

(15)

Notations (1)

Les donn ´ees

On dispose d’une base ´etiquet ´ee deNcouples{x(n),y^d(n)}

X∈R^E×N,Y^d ∈R^S×N

X={x(n)}=











 x1(n)

... x_E(n)













=







x1(1) . . . x1(N) ... . .. x_e(n) ... x_E(1) . . . x_E(N)







Y^d ={y^d(n)}=











 y₁^d(n)

... y_E^d(n)













=







y₁^d(1) . . . y₁^d(N) ... . .. y_s^d(n) ... y_S^d(1) . . . y_S^d(N)







(16)

Apprentissage(s) Posons le probl `eme

Notations(2)

Le r ´eseau (en couche)

E entr ´ee,Ssorties

Le r ´eseau comporteΛcouches

W^λmatrice des poids entre couchesλ−1 etλ On appeleray^d(n)la sortied´esir ´ee pour l’exemplen

Si :

- la coucheλ−1 contientn_i neurones - la coucheλn_j neurones,

alors : W^λ={w_ji}=







w₁₁ . . . w_1i . . . w_1n_i w_j1 ... w_ji ... w_jn_i w_n_j₁ . . . w_n_j_i . . . w_n_j_n_i





 x ∈R^E

◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦◦

◦ ◦ ◦ ◦ ◦ y ∈R^S

W¹ W² W³ W^Λ−1 W^Λ

layer 1 layer 2 layerΛ−1

layerΛ

(17)

Le probl `eme

Rappel : on souhaite estimer f :

Apprentissage sur la base des poids de connexion entre neuronesW

→ Crit `ere

Crit ère des moindres carr és (d érivable) :

J(W) =

N

X

n=1

e(n)^Te(n) avec e(n) =

y(n)−y^d(n) Qu’on peut r ´e ´ecrire en sommant sur les sorties :

J(W) =

S

X

s=1 N

X

n=1

(es(n))²=

S

X

s=1

J(Ws) (1)

Aveces(n) = ys(n)−y_s^d(n)

(18)

Apprentissage(s) R éseau lin éaire à une couche

Plan

1 Introduction

ImageNet

Mise en œuvre

(19)

R éseau lin éaire à une couche (1)

Une couche de neurones avec une fonction d’activationϕ=identit ´e

poids :W={w_se}=





 W₁^T

... W_S^T





=







w11 . . . w_1E ... wse ... wS1 . . . wSE







Propagation 1 ex. sur une sortie :y_s(n) =W_s^Tx(n)

ys

=

ws1 . . . wsE

×





 x1

.. . xE







Propagation 1 ex. sur toutes les sorties :y(n) =Wx(n)





 y1

.. . yS







=







w11 . . . w1E

..

. wse

.. .

wS1 . . . wSE







×





 x1

.. . xE







PropagationNex. surSsortie :Y=WX







y d1(1) . . . . . . y d1(N) ..

. ..

. y ds(n) .. . y dS(1) . . . . . . y dS(N)







=







w11 . . . w1E

..

. wse

.. .

wS1 . . . wSE







×







x1(1) . . . . . . x1(N)

.. .

... xe(n) .. .

xE(1) . . . . . . xE(N)







(20)

Apprentissage(s) R éseau lin éaire à une couche

R éseau lin éaire à une couche (3)

SiY=WX, alorsY^T =X^TW^T ...

... qui est de la formeY =XΘ, en remplacantXetYpar leur transpos ´ees, etΘparW^T

En appliquant les MC, on obtientW^T_MC = (XX^T)⁻¹XY^T D’ou :W_MC =YX^T(X^TX)⁻¹

Conclusion

Apprentissage OK avec les MC, mais : Pas de non lin ´earit ´e = pas terrible Une seule couche = pas terrible

(X^TX) à inverser : potentiellement tr ès lourd (mais MC r écursifs possibles)

Introduction d’une fonctionϕnon lin ´eaire

(21)

Plan

1 Introduction

ImageNet

Mise en œuvre

(22)

Apprentissage(s) R éseau non lin éaire à une couche

R éseau non lin éaire à une couche (1)

Introduction d’une fonction ϕ non lin ´eaire

On a doncY=ϕ(WX), et les MC ne sont plus applicables On va appliquer une m ´ethode de descente de gradient

→ Rappels !

(23)

Descente de Gradient (1)

Principe g ´en ´eral

On cherche lesWpermettant de minimiser une fonctionJ(W) Algorithme it ´eratif pour r ´egler lesW

Bas é sur le calcul de ^dJ_dW^(W) qui donne la direction de la descente Condition : la fonctionJ doit être d érivable

(24)

Descente de Gradient (2)

Algorithme it ´eratif : On choisit unW_t=0al ´eatoire

Bonne direction = celle o ´u le crit `ere baisse Avancer un peu, mais pas trop

W

_t₊₁

← W

_t

− η dJ (W) dW

_W

t

avec :

Wles param `etres ; η: le pas ; ^dJ_dW^(W) _W

t

: labonnedirection

(25)

Descente de Gradient (3)

Exemple de descentes de gradient 1D convexe/non convexe

3 2 1 0 1 2 3

0 1 2 3 4 5 6 7 8 9

3 2 1 0 1 2 3

1.0 0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

(26)

Descente de Gradient (4)

Exemple de descentes de gradient 2D non convexe, 2 initialisations diff ´erentes

3 2 1 0 1 2

(27)

Les machines `a gradient (1)

Que cherche t’on `a minimiser ?

W^∗ = arg min

W J(X_app,W,Y_app)) W^∗ = arg min

W

X

(x,y)∈(Xapp,Yapp)

J(x,W,y)

A chaque it ´eration de la descente on applique` W_t+1=W_t−η_t∆W_t

Attention

J(x_i,W,y_i)

∂W_k 6= J(xj,W,yj)

∂W_k

Comment appliquer la descente de gradient avec plusieurs exemples ?

(28)

Les machines `a gradient (2)

Deux strat ´egies sont possibles :

Apprentissage en bloc (batch-gradient)

∆W_i = 1 card(X)

X

(x,y)∈(X,Y)

∂J(x,W,y)

∂Wi

On met à jour les param ètres une fois que les gradients de tous les exemples d’un bloc ont ét é calcul és.

Le bloc(X,Y)est un sous-ensemble ou l’ensemble d’apprentissage complet. Un bloc n’est pas r éutilis é tant que les autres bloc n’ont pas ét é utlis és.

Apprentissage en ligne (online-gradient)

∆W_i = ∂J(x,W,y)

∂W_i

A chaque exemple pr ésent é, on met à jour les param ètres. Ce qui correspond à un bloc de taille 1, card(X) =1.

(29)

Les machines `a gradient (3)

Gradient stochastique (stochastic gradient)

On parle de gradient stochastique (stochastic gradient) lorsque les blocs sont pr ésent és dans un ordre al éatoire. Comme pour le batchgradient, un bloc ne r éapparaˆıt uniquement lorsque tous les autres ont ét é trait és.

G ´en ´eralement, on utilise :

Un gradient non-stochastique avec 1 seul bloc pour un petit nombre d’exemples

Un gradient stochastique en ligne pour un grand nombre d’exemples

(30)

Gradient descent : general algorithm

Fin duRappel, revenons à notre r éseau à une couche

(31)

R éseau non lin éaire à une couche (2)

Crit `ere

Pour un r éseau à une couche contenant une FNLϕ:y(n) =ϕ(Wx(n)) Le crit ère s’ écrit donc :

J(W) =

N

X

n=1

y^d(n)−ϕ(Wx(n))2

On d ´erive pour appliquer le gradient :W_t+1←W_t−η ^dJ_dW^(W) Wt

dJ(W)

dW = −2

N

X

n=1

y^d(n)−ϕ(Wx(n))

×dϕ(Wx(n)) dW

= −2

N

X

n=1

y^d(n)−ϕ(Wx(n))

×ϕ⁰(Wx(n))x(n)

(32)

R éseau non lin éaire à une couche (3)

Application du gradient dJ(W)

dW =−2

N

X

n=1

y^d(n)−ϕ(Wx(n))

×ϕ⁰(Wx(n))x(n)

N ´ecessite ϕ d ´erivable

Sigmo¨ıde Tanh ReLU

Remarque : dans le cas d’une fonction identit ´e,ϕ⁰=1 : c¸a marche OK pour une couche, et pour plusieurs ?

(33)

Plan

1 Introduction

ImageNet

Mise en œuvre

(34)

Apprentissage(s) R ´eseaux multicouches

R ´eseaux multicouches (1)

C’est le perceptron multicouches (PMC ou MLP)

→Couches dites cach ´ees

FNLϕ, peuvent ˆetre6=suivant les couches

Exemple d’un r ´eseau `a deux couches

E entr ´ee,Ssorties,J neurones en couche cach ´ee

W¹∈R^J×Epoids entre lesx et la couche 1 W²∈R^S×J poids entre les couches 1 et 2 z(n)∈R^J : variable interm ´ediaire

ϕ¹: sigmoide ;ϕ²: softmax x(n)∈R^E

◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦ y(n)∈R^S

z(n)

J =7 S=5

W¹={w_je} W²={w_sj}

W¹={wje}=







w11 . . . w1E

wj1 . .. wjE

wJ1 . . . wJE





 W²={wsj}=







w11 . . . w1J

ws1 . .. wsJ

wS1 . . . wSJ







(35)

R ´eseaux multicouches (2)

Propagation d’un exemple :

couche 1 : somme pond ´er ´eeα¹_j =P

ewjexe, puiszj =ϕ¹ α¹_j) couche 2 : somme pond ´er ´eeα²_s =P

jw_sjz_j, puisy_s=ϕ² α²_s)

Apprentissage : R ´etropropagation du gradient [Rumelhart 86]

Initialiser lesW^λau hasard

1 Propager un exemplex(n)pour calculery(n)

2 Calculer l’erreur(y^d(n)−y(n))

3 R étropropager le crit èreJ = (y^d(n)−y(n))² à traversW₂...

4 ... puis `a traversW1

On passe tous les exemples de la base, et on it `ere tant qu’on n’est pas satisfait

(36)

R ´eseaux multicouches (3)

Chaque sortie s’ ´ecrit :

ys=ϕ²



 X

j

wsjϕ¹ X

e

wjexe

!



Doncle crit `ereJ =1/2P

s(y_s^d−y_s)²d ´epend de(w_je, ϕ¹,w_sj, ϕ²).

Apprentissage de w

je

et w

sj

:

Descente de gradient : w_{je t+1}←w_{je t}−η ∂J

∂wje

w_{je t}

et w_{sj t+1}←w_{sj t}−η ∂J

∂wsj

w_{sj t}

Probl ème : comment calculer les d ériv ées partielles du crit ère ?

(37)

R ´eseaux multicouches (3)

On commence par le calcul de : ∂J

∂w_sj

=

^∂J_∂y

s

×

_∂α^∂y^s₂

s

×

_∂w^∂α²^s

sj

∂J

∂y_s = ∂

∂y_s 1 2

S

X

s=1

(y_s^d−ys)²=−(y_s^d−ys)

∂ys

∂α²_s = ∂

∂α²_sϕ²(α²_s) =ϕ²⁰(α²_s)

∂α²_s

∂w_sj = ∂

∂w_sj

J

X

j=1

wsjzj =zj

Finalement : _∂w^∂J

sj

= −(y

_s^d

− y

s

) × ϕ

²⁰

(α

²_s

) × z

j

= Erreur

s

z

j

Cette quantit ´e repr ´esente l’erreur sur la sortiesdue au neuronej

(38)

R ´eseaux multicouches (4)

On enchaine avec le calcul de : ∂J

∂w_je

=

^∂J_∂z

j

×

_∂α^∂z^j₁

j

×

_∂w^∂α¹^j

je

∂J

∂zj

= X

s

∂J

∂α²_s ×∂α²s

∂zj

1er terme : rouge*vert du slide pr´ec´edent

= X

s



−(y_s^d−ys)×ϕ²⁰(α²_s)× ∂

∂zj

X

j

wsjzj



=−X

s

(y_s^d−ys)×ϕ²⁰(α²_s)×wsj

∂zj

∂α¹_j = ∂

∂α¹_jϕ¹(α¹_j)=ϕ¹⁰(α¹_j) ∂α¹_j

∂wje

= ∂

∂wje

X

e

wjexe=xe

Finalement :

∂J

∂wje

= − P

s

(y

_s^d

− y

s

) × ϕ

²⁰

(α

²_s

) × w

sj

× ϕ

¹⁰

(α

¹_j

) × x

e

= Erreur

j

x

e

Cette quantit é repr ésente l’erreur sur le neuronej due à l’entr éee

(39)

R ´eseaux multicouches (5)

On r ´ecapitule :

Algorithm 1Backpropagation algorithm η←0.001

W1←rand(J,E) W2←rand(S,J)

while(erreurApp≤)do forn=1→Ndo

propagatex(n): computez(n)andy(n) computeErrorS

W²←W²−η∗Error_S∗z(n) computeErreur_J

W¹←W¹−η∗Error_J∗x(n) end for

end while

(40)

R ´eseaux multicouches (5’)

On r ´ecapitule, en matlab :

Function grad = retropropag(x,yd,W1,W2) ...

a1 = [x ones(n,1)]*W1 ; x1 = tanh(a1) ; a2 = [x1 ones(n,1)]*W2 ; y = a2 ; errorS = -(yd-y).*(1-y.*y) ;

GradW2 = [x1 ones(n,1)]’* errorS ;

errorJ = (w2(1 :n2-1, :)*errorS’)’.*(1-x1.*x1) ; GradW1 = [x ones(n,1)]’* errorJ ;

w1 = w1 - pas1 .* GradW1 ; w2 = w2 - pas2 .* GradW2 ;

(41)

G ´en ´eralisation (Y.Lecun, voir cours du 12/02/16

¹

)

R ´eseau Feedforward :

Empilement de couchesF_i calculant une sortieH_i à partir d’une entr ée Hi−1, et éventuellement de param ètresW_i et de la sortieY. Exemples :

Couche lin ´eaire :

H_i =F_i(H_i−1,W_i) =W_iH_i−1 Couche fonction d’activation

(f :tanh, ReLU, Softmax, etc.) : H_i =F_i(Hi−1) =f(H_i−1) Couche MSE :

H_i =F_i(H_i−1,Y) =||H_i−1−Y||²

MLP classique :

1. https://www.college-de-france.fr/site/yann-lecun/

course-2016-02-12-14h30.htm

(42)

G ´en ´eralisation (2)

Gradients et Backprop

Ainsi, on peut faire abstraction des couches Calcul des gradients :

∂J

∂Hi−1

= ∂J

∂H_i × ∂Hi

∂H_i−1

Pour les couchesFi qui en comportent : Mise `a jour des poids

∂J

∂W_i = ∂J

∂H_i × ∂Hi

∂W_i

On applique ces deux équations de mani ère r écursive, de la sortie vers l’entr ée :

I le terme en bleu étant calcul é pr éc édemment

I les termes en magenta et vert sont `a instancier suivant le type de couche

(43)

G ´en ´eralisation (3)

Instanciation des F

i

les plus courants :

Couche lin ´eaire :H_i =F_i(Hi−1,W_i) =W_iHi−1donc :

∂H_i

∂H_i₋₁ =W_i ; ∂H_i

∂W_i =Hi−1

Couche activation :Hi =Fi(Hi−1) =f(Hi−1) avecf :tanh, sigmoide, ReLU, Softmax, etc. donc :

∂H_i

∂Hi−1

=f⁰(H_i−1)

Couche MSE :Hi =Fi(Hi−1,Y) =||H_i−1−Y||²donc :

∂H_i

∂Hi−1

=2×(Hi−1−Y)

(44)

G ´en ´eralisation (4)

Algo de backprop generique pour L couches

foreach sample fori =Ldownto 1

∂J

∂Hi−1 ← _∂H^∂J

i ×_∂H^∂Hⁱ

i−1

∂J

∂Wi ← _∂H^∂J

i ×_∂W^∂Hⁱ

i // si n ´ecessaire endfor

end foreach

(45)

R ´eseaux multicouches (6)

Dimensionnement

Combien de neurones par couches / Combien de couches ?

Th éor ème d’approximation universelle : ”Une seule couche non lin éaire suffit pour estimer n’importe quelle fonctionf,

pourvu que :J → ∞etN → ∞” [Lippman 87]

Solution : rajoutons des couches !

,Backprop g én éralisable avec plusieurs couches cach ées ,Fronti ères de d écision plus complexes

,Repr ´esentation de haut niveau des donn ´ees

/Mais l’ ´energie de l’erreur est trop faible pour modifier les couches basses

→ Deep learning !

(46)

Architectures profondes Historique et Principes g ´en ´eraux

Plan

1 Introduction

ImageNet

Mise en œuvre

(47)

MLP vs. SVM vs. Architectures profondes

1985 - 1995 : l’essor des r ´eseaux de neurones

Emergence de nombreuses applications industrielles : Reconnaissance d’ ´ecriture, de la parole, etc.

1995 - 2005 : La suppr ´ematie des Support Vector Machines

Classifieurs aux bases th ´eoriques fortes

Excellentes capacit és de g én éralisation, perf. à l’ état de l’art R éseaux de neurones en sommeil . . .

2006 - 20 ? ? : Le retour des r ´eseaux de neurones

Hinton, G. E., Osindero, S. and Teh, Y. A fast learning algorithm for deep belief nets. Neural Computation, 18, pp 1527-1554 (2006)

R ´eseaux de neurones profonds

Architectures connues, nouveaux algo d’apprentissage

Performances permettant d’envisager de nouvelles applications

(48)

Architectures profondes : principe

R ´eseau feedforward comportantΛcouches, avecΛ>2

W^λmatrice des poids entre couchesλ−1 etλ

Avantages

Meilleure discrimination

Permet d’apprendre l’extraction de caract ´eristiques

Inconv ´enients

Plus de param ètres : n écessite plus de donn ées

Disparition du gradient x ∈R^E

◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦◦

◦ ◦ ◦ ◦ ◦ y ∈R^S

W¹ W² W³ W^Λ−1 W^Λ

layerΛ

(49)

Le ”deep learning”, c’est quoi ?

Ensemble de m éthodes pour apprendre des r éseaux profonds, malgr é le vanishing gradient

M éthodes souvent assez empiriques, assise th éorique pas toujours d émontr ée

Mod èles imposant pouvant comporter des millions de param ètres Apprentissage n écessitant des ressources de calcul importantes (GPU) Performances potentiellement tr ès élev ées

(50)

La lutte contre le vanishing gradient

Vanishing gradient

Neurones satur ´es des couches hautes

”→gradient d’erreur tend vers 0 Apprentissage inefficace

Comment coutourner le vanishing gradient ?

Pr ´e-apprentissage

Convolutional Neural Networks (CNN) ReLU

Regularisation : Dropout, Batch normalization, Tikhonov Feeling, exp ´erience & Tuning de param `etres !

(51)

Plan

1 Introduction

ImageNet

Mise en œuvre

(52)

Architectures profondes Pr ´e apprentissage

Pr ´e apprentissage (1)

Principe

R ´eseau feedforward comportantΛcouches, avecΛ>2

W^λmatrice des poids entre couchesλ−1 etλ backprop insuffisante→comment faire ?

Apprentissage en deux temps

Apprentissage des couches dites basses, en non supervis ´e

I Utilisation des autoencodeurs

I Couches dites de mod `eles

Apprentissage des derni `eres couches en supervis ´e

I Backpropagation

I Couches dites de decision

x ∈R^E

◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦◦

◦ ◦ ◦ ◦ ◦ y ∈R^S

W¹ W² W³ W^Λ−1 W^Λ

layerΛ

(53)

Pr ´e apprentissage (2)

Auto Associateurs (AA)

Un AA cherche à apprendre ses propres entr ées : on veuty^d =x Apprentissage d’un encodeure(x)et d’un d écodeurd((e(x)) R éseau à une couche cach éeeet une couche de sortied Crit ère :J = (ˆx−x)²= (d(e(x))−x)²

Si le nombre de neurones deeest

<E:

Compression, repr ´esentation parcimonieuse dex

x

◦ ◦ ◦ ◦ ◦

◦ ◦ ◦ ◦ ◦◦

xˆ=d(e(x))

e d

(54)

Architectures profondes Pr ´e apprentissage

Pr ´e apprentissage (3) : Apprentissage

pre-training

Apprendre un AA surx.

Gardere¹(x) =H¹, jeterd¹(e¹(x)) Apprendre un nouvel AA sure¹(x) Gardere²(e¹(x)) =H², jeterd² etc.

fine-tuning

d ´everrouiller tous lesH^λ rajouter une ou

plusieurs couches backpropagation sur l’ensemble du r ´eseau

(55)

Plan

1 Introduction

ImageNet

Mise en œuvre

(56)

Architectures profondes R ´eseaux convolutionnels

Convolutional neural networks (1)

R ´eseaux de neurones convolutionnels

R éseau feedforward o ù chaque neurone est uniquement connect é à un sous ensemble deoneurones de la couche pr éc édente.

Les poids sont partag ´es entre les neurones,sauf les biais

# param d’une couche de taillemversn:(m+1)∗n→o+n w₁

w₂ w₃ w1

w2

w3

w₁

w2

w3

[email protected] Neural Networks : Part I 2 f ´evrier 2018 56 / 80

(57)

Convolutional neural networks (2)

R ´eseaux de neurones convolutionnels

M écanisme de poids partag és = apprentissage de filtres qui convoluent l’image d’entr ée

Moins de param ètres, meilleure g én éralisation

Plut ôt destin é à traiter les images, mais pas seulement (texte, etc.) Apprentissage de filtres par backprop classique

FIGURE–Filtres d’un CNN [Krizhevsky et al.]

(58)

Architectures profondes R ´eseaux convolutionnels

Convolutional neural networks (3)

Couches convolutionnelles :

G én éralement plusieurs convolutions à chaque étage

Alternance des couches de Conv et de Pooling pour concentrer l’information spatialement

Couches hautes denses (ou Full Connex.) pour ´etablir la classification ou la r ´egression

Voir aussi l’excellente anim. au milieu du cours de stanford : http://cs231n.github.io/convolutional-networks/

(59)

Convolutional neural networks (4)

Exemple de CNN : VGG16

Caract ´eristiques

16 couches : 13 couches de conv. + pooling, 3 denses

138M de param `etres dont 124M ( 90%) pour les 3 couches denses

(60)

Architectures profondes Regularisation

Plan

1 Introduction

ImageNet

Mise en œuvre

(61)

Rectified Linear Units (ReLU)

Id ée : éviter la saturation des unit és pour avoir plus de Gradient

FIGURE–ReLUmax(0,x)and Softplusln(1+e^x)

(62)

Dropout (1)

Dropout [Hinton, G. et al. 2012]

Pendant l’apprentissage ; supprimer al éatoirement à chaque it ération des connections selon une probabilit ép.

En d ´ecision, multiplier les poids par # actual disconnections

# iterations (6=p).

(63)

Dropout (2)

Remarques

Peut être appliqu é sur les entr ées, sur les connections ou sur les neurones

Revient à entraˆıner de nombreux mod èles diff érents et à les combiner en d écision

Bruitage du mod èle pour mieux g én éraliser

FIGURE–Reuters dataset

[email protected] Neural Networks : Part I 2 f ´evrier 2018 63 / 80

(64)

Batch normalization

Principe

Normaliser Les donn ées en entr ée du r éseauetentre chaque couche Normalisation par dimension

En app :param ètres bas és sur le les statistiques du batchB En test :param ètres bas és sur les statistiques de la base d’app compl ète

x⁰ = x−µ_B q

σ²_B+

o `ux est une seule dimension

r ´etropropagation

N ´ecessite ^∂L_∂x.⇒comment calculer ^∂_∂x^L `a partir de _∂x^∂L0?

(65)

R ´etropropagation avec batch normalization

Moyenne et variance d ´ependent de x

x_i⁰= xi−µ_B(xi) q

σ_B²(xi) +

o `ux est une seule feature (un scalaire), eti ∈ Best un exemple.

∂J

∂x_i = ∂J

∂x_i⁰ 1 q

σ_B²+ + 1

m ∂J

∂σ_B²2(xi−µ_B) + ∂J

∂µ_B

∂J

∂σ_B² = −1

2 σ²_B+^−3/2

m

X

i=1

∂J

∂x_i⁰(x_i−µB)

∂J

∂µB

= − 1

q σ_B² +

m

X

i=1

∂J

∂x_i⁰ − 1 m

∂J

∂σ_B²

m

X

i=1

2(x_i−µ_B)

wheremis the number of examples inB.

(66)

R ´egularisation de Tikhonov

Sch éma g én éral

Crit `ere de performance combin ´e avec une contrainte sur les solutions possibles :

J(w) =X

i

J(y_i,f(x_i;w)) +λ.Ω(w)

Norme L2 :Ω(w_out) =P

d||w_d||²

(AKA ridge regression & weight decay) Norme L1 :Ω(wout) =P

d|w_d| Avec un nombre d’unit ´e infini :

L1 : boosting L2 : SVM

(67)

Plan

1 Introduction

ImageNet

Mise en œuvre

(68)

Architectures profondes ImageNet

La comp ´etition ImageNet [Krizhevsky 2012]

ImageNet

>14M d’images, 1000+ classes (objets, animaux, sc `enes, etc.) Images couleur 512∗512

(69)

Object classification

FIGURE–ImageNet [Krizhevsky 2012]

(70)

Architectures profondes ImageNet

Les architectures pour traiter ImageNet

VGG16, VGG19, AlexNet, GoogleNet, Inception, ResNet (L>150 !), etc.

performance : de l’ordre de qq % d’erreur en 2015 (3.52% pour resnet)

(71)

Transfer learning

Comment faire quand on a peu de donn ´ees ?

Utiliser un r éseau pr é-appris (AlexNet, VGG16, etc.) sur une tr ès grosse base (ImageNet)

Fit des donn ées et des couches de sorties R éapprentissage sur le nouveau jeu de donn ées

(72)

R ´eseaux de neurones dans la pratique

Plan

1 Introduction

2 Principes g ´en ´eraux

3 Apprentissage(s)

Mise en œuvre

(73)

Avantages et Inconv ´enients

Avantages

Un RdN approxime des probabilit és à posteriorip(Ci/x) Tr ès rapide en d écision

Supporte tr ès bien les grandes dimensions (E>qq centaines) Performances : architectures profondes à l’ état de l’art sur la majorit é des probl èmes d’intelligence artificielle

Inconv ´enients

Param ´etrisation

Apprentissage long et parfois difficile à contr ôler (minimum locaux) N écessite bcp de donn ées

(74)

R ´eseaux de neurones dans la pratique Param ´etrisation

Param ´etrisation/choix du r ´eseau

Nombre de couches

Probl ème ”simple”, carac disponibles : MLP avec 1 ou 2 couches Sinon : Architecture profonde : Pas de caract éristiques à extraire,, mais plus d’hyperparam ètres/

Si image/vid ´eo : CNN / LSTM (Cf. prochain cours) Si s ´equence (texte, signal, etc.) : LSTM

Nombre de neurones couches cach ´ees

Classique : moyenne g éom étrique ou arithm étique de (E,S) Avec des deep : + difficile, premi ère couche + grande queE

Fonction d’activation ϕ

Privil ´egier la ReLU, Softmax en derni `ere couche,tanhou sigmoide pour les RNN (Cf. prochain cours) ;

(75)

Param ´etrisation/choix du r ´eseau

R ´eglage du pas (voir cours Gradient)

pas fixe : petit ( 10⁻³, 10⁻⁴, 10⁻⁵, ...) pas adaptatif : diminue avec les it ´erations

line search : calcul du pas ”id éal” à chaque it ération

M éthode du deuxi ème ordre (gradient conjugu é), + de calculs

Choix du crit `ere J

Classification : plut ˆot cross entropy Regression : plut ˆot MSE

(76)

R ´eseaux de neurones dans la pratique Param ´etrisation

Les donn ´ees

DATA DATA DATA DATA DATA DATA DATA DATA The more, the better !

Centr ées r éduites : c’est mieux Attention aux bases non balanc ées M élanger les donn ées

Online/batch/mini batch App/Valid/Test

Data augmentation

Datasets publics

Rarement le dataset id éal pour notre probl ème Mais peuvent être utilis és à travers le transfer learning

ImageNet, Rimes, MNIST, STREET dataset (num ´eros google), OpenHart, etc.

(77)

Mise en œuvre

∃ de nombreuses librairies

La plupart sont bas ´ees sur Theano (python, Montreal, RIP)^aet TensorFlow (Google)^b

Keras (python)https://keras.io/

Torch7 (lua) (NEC)http://torch.ch/

pybrain (python, TUM Munich)http://pybrain.org/

Caffe (Berkeley)http://caffe.berkeleyvision.org/

a. http://deeplearning.net/software/theano/

b. https://www.tensorflow.org

Exemple de code Keras pour vgg16 :code/vgg16.py

(78)

R ´eseaux de neurones dans la pratique Mise en œuvre

Exercices

Exercice A : MLP from scratch

Coder en matlab/octave un MLP à 1 couche cach ée, sans librairie Tester les hyperparam ètres :η; nb d’it ération, nb de neurones, etc.

Base ? MNIST

Exercice B : Utilisation de tensorFlow + Keras

Tester les CNN pour une t ˆache de classif Tester le transfer learning

Tester les RNN ...

Exercice C : Utilisation sur un pb perso

Pr édiction r ésultats sportifs, de temp érature Apprendre au r éseau à parler

...

(79)

Bibliographie

Quelques pointeurs int ´eressants pour aller plus loin :

Les cours de Yann Lecun au coll `ege de France

https://www.college-de-france.fr/site/yann-lecun/

Chaine Youtube de H. Larochelle :http://tinyurl.com/lpkvjm4 Cours tr `es p ´edagogique sur les CNN (Stanford) :

http://cs231n.github.io/convolutional-networks/

Livre de Ian Goodfellow, Yoshua Bengio and Aaron Courville : ”Deep Learning”, MIT Press

https://mitpress.mit.edu/books/deep-learning

(80)

Bibliographie

F. Rosenblatt. Principles of Neurodynamics. New York : Spartan, 1962.

C.M. Bishop. Neural networks for pattern recognition, Oxford : Oxford University Press, 1995.

D.E. Rumelhart, G.E. Hinton and R.J. Williams. Learning internal representations by error propagation. Parallel Distributed Processing Explorations in the Microstructure of Cognition. MIT Press, Bradford Books, vol. 1, pp. 318-362, 1986.

S. Belharbi, C. Chatelain, R. H ´erault, S. Adam, S. Thureau, M. Chastan, and R. Modzelewski, ”Spotting L3 slice in CT scans using deep

convolutional network and transfer learning”, Computers in Biology and Medicine, vol. 87, pp. 95-103, 2017.

Soufiane Belharbi, Cl ément Chatelain, Romain H érault, S ébastien Adam : Input/Output Deep Architecture for Structured Output Problems.

CoRR abs/1504.07550 (2015)