1Réseaux de neuronesIFT 780Réseaux à convolutionParPierre-Marc JodoinkD, 4 Classes, Réseauà 4 couches cachéesCouched’entréeCouchecachée 1Couchede sortieCouchecachée 2

(1)

Réseaux à convolution

Par Pierre-Marc Jodoin

kD, 4 Classes, Réseau à 4 couches cachées

Couche d’entrée

Couche cachée 1

Couche de sortie Couche

cachée 2



1



x0

x1

xk 1

x2

W[0]



1

W[1]

W[4]

(...)



1



1

W[3] 



 W[2]

Couche cachée 4 Couche

cachée 3

 

,1

yW x

,0 

yW x

,3 

yW x

,2 

yW x

 

Hinge loss

[4]

W0 [4]

W1 [4]

W2 [4]

W3

Couches pleinement

(2)



1



x0

x1

xk 1

x2 



1

W[1] W

(...)



1



1

W 



W[2] _exp

exp exp exp

Softmax

,1 

yW x

N O R M

,0 

yW x

,3 

yW x

,2 

yW x

  ^softmax



^[4]



^[3]



^[2]



^[1]



^[0]

    

yW x  W  W  W  W  W x

Croisée

Softmax

 

^,

,

x ^{W i}

W i

W k k

y f

 f



Couches pleinement Connectées (fully-connected layers)

kD, 4 Classes, Réseau à 4 couches cachées

Couche d’entrée

Couche cachée 1

Couche de sortie Couche

cachée 2



1



x0

x1

xk 1

x2

W[0]



1

W[1]

W[4]

(...)



1



1

W[3] 



 W[2]

Couche cachée 4 Couche

cachée 3

 

,1

yW x

,0 

yW x

,3 

yW x

,2 

yW x

  ^[4]



^[3]



^[2]



^[1]



^[0]

   

yW x W  W  W  W  W x

[4]

W0 [4]

W1 [4]

W2 [4]

W3

Couches pleinement Connectées

(3)

1



xk 1



1



1

 



   

,2 x 0,1

fW 

   

,3 x 0,1

fW 

exp exp

  ^exp



^[4]



^[3]



^[2]



^[1]



^[0]

    

fW x  W  W  W  W  W x

Softmax

^,

^{ }

^,

,

x ^{W i}

W i

W k k

y f

 f



Couches pleinement Connectées (fully-connected layers)

Comment classifier des images?

(4)

Pixel 2 Pixel 3 Pixel 4 Pixel 5 Pixel 6

Pixel 7 Pixel 8 Pixel 9 Pixel 10 Pixel 11 Pixel 12 Pixel 13 Pixel 14

Pixel 784

https://ml4a.github.io/ml4a/neural_networks/

Beaucoup de paramètres (7850 dans la couche 1)

Biais Pixel 1 Pixel 2 Pixel 3 Pixel 4 Pixel 5 Pixel 6 Pixel 8 Pixel 9 Pixel 10 Pixel 11 Pixel 12 Pixel 13 Pixel 14

Pixel 784

(5)

Pixel 9 Pixel 10 Pixel 11 Pixel 12 Pixel 13 Pixel 14

Pixel 65536

256x256

Image médicale (IRM de cerveau)

Pixel 1 Pixel 2 Pixel 3 Pixel 4 Pixel 5 Pixel 6

Pixel 7 Pixel 8 Pixel 9 Pixel 10 Pixel 11 Pixel 12 Pixel 13 Pixel 14

Pixel 16M

256x256x256

Beaucoup TROP de paramètres (160M dans la couche 1)

Biais

(6)

11

(...)

(...) (...)

   0,1

1x

F 

S 

S S S

   0,1

2x

F 



   0,1

3x

F 



   0,1

4x

F 



150-D en entrée avec 150 neurones dans la 1ère couche => 22,200 parametres dans la couche d’entrée!!

Comment réduire le nombre de connections?

Les couches pleinement connectées (fully-connected layers) sont problématiques lorsque le nombre de neurones est élevé.

(7)

S S

   0,1

3x

F 



   0,1

4x

F 



150-D en entrée avec 148 neurones dans la 1ère couche => 444 paramètres dans la première couche!!

Paramètres partagés : les neurones de la couche 1 partagent les mêmes poids

(...)

   0,1

1x

F 

S 

S S S

   0,1

2x

F 



   0,1

3x

F 



   0,1

4x

F 



(...)

1

w0 1

w1 12

w

1

w1 1

w0 1

w2

1

w1 1

w2 1

w0

(...)

2

w0 2

w1 2

w2

2

w2 2

w1 2

w0

2

w1 22

w

2

w0

150-D en entrée avec 148 neurones dans la 1ère couche => 3 paramètres dans la couche d’entrée!!

Convolution

(8)

couche convolutionnelle 1D

Exemple 1D

f(u) 10 20-3040-50

W(u) .1 .2 .3 (signal d’entrée) (filtre)

(f*W)(1)

.3 .2 .1

  

4 3+4+-3

(f*W)(2)

.3 .2 .1

  

4 6-6+4

4

(f*W)(3)

.3 .2 .1

  

4 -9+8+-5

4 -6



^











u

u v W u f v W

f )( ) ( ) ( )

(

W(-u) .3 .2 .1 (filtre)

10 20-3040 -50 10 20-3040 -50

10 20-30 40 -50

(9)

La convolution des réseaux de neurones = corrélation

f(u) W(u)

.1 .2 .3 (signal d’entrée) (filtre)

(f*W)(1)

  

-4 1+4-9

(f*W)(2)

   2-6+12

(f*W)(3)

  

-3+8-15



^











u

u v W u f v W

f )( ) ( ) ( )

(

W(+u) (filtre)

.1 .2 .3

.1 .2 .3 .1 .2 .3 .1 .2 .3

10 20-3040-50

10 20-30 40 -50 10 20-30 40 -50 10 20-3040 -50

(10)

19 20

-30

40

-50

.2 .3

.1 .2

.3 .1 .2

.3 -4

8

-10

10

20

-30

40

-50

.1 .2

.3 .1 .2

.3 -4

8

-10

Fonction d’activation

(ex. ReLU)

ReLU

ReLU ReLU

0

8

0

L’opération de la page précédente est équivalente à

(11)

21 -50

0

Représentation graphique courante (encore plus simple)

Conv ReLU

(12)

23

Représentation graphique courante (eehhh…)

Carte d’activation (feature map) Vecteur d’entrée

(13)

25 x5

w2

w3

) W)(

h(x 3

Stride et calcul de la taille de la carte d’activation

40 50 70 80 90 10 20 30 40

D=9

F=3 ^{.2 -.3 .4}

prod. scal.

21

(14)

27

40 50 70 80 90 10 20 30 40

F=3 ^{.2 -.3 .4}

prod. scal.

21 21

Stride = 1

Stride et calcul de la taille de la carte d’activation

40 50 70 80 90 10 20 30 40

F=3 ^.2 ^-.3 ^.4

prod. scal.

21 21 26

D=9

(15)

29

21 21 26 -7

Stride et calcul de la taille de la carte d’activation

40 50 70 80 90 10 20 30 40

F=3 ^.2 ^-.3 ^.4

prod. scal.

21 21 26 -7 23

D=9

(16)

31

40 50 70 80 90 10 20 30 40

F=3 ^.2 ^-.3 ^.4

prod. scal.

21 21 26 -7 23 8

Stride et calcul de la taille de la carte d’activation

40 50 70 80 90 10 20 30 40

F=3 ^.2 ^-.3 ^.4

prod. scal.

21 21 26 -7 23 8 11

Taille de la carte d’activation =

7

D=9

(17)

33

35

Stride et calcul de la taille de la carte d’activation

40 50 70 80 90 10 20 30 40

F=5 .2 ^-.3 .4 ^-.5 .6 prod. scal.

35 ^-18

Stride = 1

D=9

(18)

35

40 50 70 80 90 10 20 30 40

F=5 .2 ^-.3 .4 ^-.5 .6

prod. scal.

35 ^-18 33

Stride et calcul de la taille de la carte d’activation

40 50 70 80 90 10 20 30 40

F=5 .2 ^-.3 .4 ^-.5 .6

prod. scal.

35 ^-18 33 1

D=9

(19)

37

35 ^-18 33 1 32

5 Stride et calcul de la taille de la carte d’activation

40 50 70 80 90 10 20 30 40

F=7 .2 ^-.3 .4 ^-.5 .6 ^-.7 .8 prod. scal.

44

D=9

(20)

39

40 50 70 80 90 10 20 30 40

F=7 .2 ^-.3 .4 ^-.5 .6 ^-.7 .8 prod. scal.

44 ^-8

Stride = 1

Stride et calcul de la taille de la carte d’activation

40 50 70 80 90 10 20 30 40

F=7 .2 ^-.3 .4 ^-.5 .6 ^-.7 .8 prod. scal.

44 ^-8 44

3

D=9

(21)

41

35

Stride et calcul de la taille de la carte d’activation

40 50 70 80 90 10 20 30 40

F=5 .2 ^-.3 .4 ^-.5 .6

prod. scal.

35 33

Stride = 2

D=9

(22)

43

40 50 70 80 90 10 20 30 40

F=5 ^.2 ^-.3 ^.4 ^-.5 ^.6

prod. scal.

35 33 32

3 Stride et calcul de la taille de la carte d’activation

40 50 70 80 90 10 20 30 40

F=5 .2 ^-.3 .4 ^-.5 .6 prod. scal.

35

D=9

(23)

45

35 1

Stride = 3

Stride et calcul de la taille de la carte d’activation

40 50 70 80 90 10 20 30 40

F=5 ^.2 ^-.3 ^.4 ^-.5 ^.6

prod. scal.

ERREUR! Combinaison D-F-S invalide

? ?

35 1

D=9

(24)

47

(D-F)/S+1

Doit être un entier

Parfois on souhaite que le nombre de neurones dans la carte d’activation soit le mêmeque la couche précédente Comment gérer les bords?

Option 1 : Ajout de zéros (« zero padding» remplacer ? par 0) 0

0

f(u) (f*W)(u)

-4 8 -10

8 -6

Option 2 : Réflexion («reflexion padding»)

40 20

f(u) (f*W)(u)

-4 8 -10

10 2

Option 3 : Étirement («stretching padding») -50

10

f(u) (f*W)(u)

-4 8 -10

9 -21

  10 20-3040 -50

?

10 20-3040 -50

10 20-30 40 -50

.1 .2 .3

(25)

49 40

20

f(u) (f*W)(u)

-4 8 -10

10 2

Option 3 : Étirement («stretching padding») -50

10

f(u) (f*W)(u)

-4 8 -10

9 -21

10 20-3040 -50

10 20-30 40 -50

De loin l’option la plus utilisée

Couche convolutionnelle sans « padding »

Couche convolutionnelle avec « padding »

Carte d’activation

(26)

Carte d’activation (feature map)

Signal d’entrée Carte d’activation

(feature map) Signal d’entrée

100 neurones 100 neurones

96 neurones 100 neurones

Cartes d’activation Signal d’entrée

Il est possible d’apprendre plusieurs filtres par couche

(ex. 5 filtres donnant 5 cartes d’activation)

h(x*w1) h(x*w2) h(x*w3) h(x*w4) h(x*w5)

x

(27)

Cartes d’activation (feature maps) Signal d’entrée

Taille de filtre = 5

(ex. 5 filtres donnant 5 cartes d’activation)

h(x*w1) h(x*w2) h(x*w3) h(x*w4) h(x*w5)

x

100 neurones Avec «padding»:

• 100 neurones par carte d’activation

• 500 neurones au total

• 25 paramètres au total

(28)

couche convolutionnelle 2D

Filtage 2D

(sans flip de filtre)



^ ^





u v

v u W v j u i f j

i W

x )(, ) ( , ) ( , )

(

) 1 , 1 ( ) 1 , ( ) 1 , 1 ( ) , )(

(xW ij w₁xi j w₂xij w₃xi j ) , 1 ( ) , ( ) , 1

( ₅ ₆

4xi j wxij wxi j

w    



) 1 , 1 ( ) 1 , ( ) 1 , 1

(      

wxi j wxij wxi j )

, (i j

1 , 1 

 j i

j i1, j

i1, 1 , 1 

 i

i i,j1i1,j1

1 y , 1

x  x,y1

) , (i j

x W(u,v)

w5

w9

w6

w4

w1 w₂ w₃

w7 w₈

(29)

Convolution 2D

7

Filtre = 3x3 Stride = 1

(30)

7

Convolution 2D

7

(31)

Taille de la carte d’activation (pour stride 1) =

5x5

Convolution 2D

7

(32)

7

Convolution 2D

7

Taille de la carte d’activation (pour stride 2) =

3x3

(33)

Convolution 2D

7

(34)

7

Combinaison D-F-S invalide!

? ?

Convolution 2D

D1

D2 F2

Taille de la carte d’activation :

(D1-F1)/S+1 x (D2-F2)/S+1

F1

(35)

25 / 1 1 1 1 1

1 1 1 1 1













x W2

h 

x W3

h 

4 filtres = Couche convolutionnelle avec 4 cartes

d’activation

(36)

Ex.: taille de filtre : 5x5, 5 cartes d’activation, convolution « same »

100 lignes (hauteur)

100 colonnes (largeur)

• 10,000 neurones par carte d’activation

• 50,000 neurones au total

• 5x5x5 = 125 paramètres au total

(37)

1 1 1 5

Représentation schématique

(2 filtres et 2 cartes d’activation, convolution «same»)

100

1

100

1 5

Image: 100x100x1 Filtre : 5x5x1 Stride : 1

1

(38)

100

1

100

6 Filtre : 5x5x1

Stride : 1

Couche convolutive

Combien de neurones et de paramètres

au total?

Représentation schématique

(6 filtres et 6 carte d’activation, convolution «same»)

100

1

100

6 Image: 100x100x1 Filtre : 5x5x1 Stride : 1

6 cartes d’activation

Couche convolutive

100x100x6=60,000 neurones 6x5x5x1=150 paramètres

(39)

1 6 convolutive

Représentation schématique simplifiée

(6 filtres et 6 cartes d’activation, convolution «valid»)

100

1

96

6 Image: 100x100x1 Filtre : 5x5x1 Stride : 1

Couche convolutive

au total?

6 cartes d’activation (bloc convolutif)

(40)

100

1

96

6 Filtre : 5x5x1 Stride : 1

Couche convolutive

Représentation schématique images couleurs (ex.: images RGB de CIFAR10

convolution «same»)

32

3

32

6 Image: 32x32x3 Filtre : 5x5x3 Stride :1

Couche convolutive

au total?

Exemples cifar10

(41)

3 6 convolutive

32x32x6=6,144 neurones 6x5x5x3=450paramètres

convolution «same»)

32

3

32

Couche convolutive

Qu’arrivera-t-il si on utilise une stride de 3?

(42)

32

3

32

6 Filtre : 5x5x3 Stride :1

Couche convolutive

(D-F)/S+1

=

(32-5)/3+1=10

convolution « same »)

32

3

10

Couche convolutive

10x10x6=600 neurones 6x5x5x3=450paramètres 6 cartes d’activation

(bloc convolutif)

(43)

Exemple

Volume en entrée : 32 x 32 x 3 10 filtres 5x5 avecstride = 1 et convolution «same»

Combien de paramètres dans cette couche?

Chaque filtre a 5x5x3= 75paramètres Comme il y a 10 filtres : 750paramètres

(44)

10 filtres 5x5 avecstride = 1 et convolution «same»

Chaque filtre a 5x5x3+1= 76paramètres (+1 pour le biais) Comme il y a 10 filtres : 760paramètres

Exemple

Volume en entrée : 32 x 32 x 3 10 filtres 5x5 avecstride = 1 et convolution «valid»

(45)

Même chose, cela ne change pas la conformité des filtres

Exemple

Volume en entrée : 32 x 32 x 3 10 filtres 5x5 avecstride = 1 et convolution «valid»

Combien de neuronesdans les cartes d’activations?

(46)

10 filtres 5x5 avecstride = 1 et convolution «valid»

Combien de neuronesdans les cartes d’activations?

(32-5+1) x (32-5+1) x 10 = 7,840

Des filtres 1x1? Oui ça marche

64 64 16

64 64 10

10 filtres

1x1x16

(47)

Filtre moyennant les canauxrouge, vert, bleud’une image couleur.

Résultat, une image en niveau de gris.

Tout comme un Perceptron multi-couches, un réseau à convolution contient plusieurs

couches consécutives

(48)

x

^Conv

ReLU

Conv ReLU

Conv

ReLU

(…)

100 neurones

3x100=300 neurones

7x3 = 21 paramètres 5x100=500 neurones 5x5x3=75 paramètres

4x100=400 neurones 4x5x5=100 paramètres

Exemple : 3 filtres couche 1 : taille 7 5 filtres couche 2 : taille 5 4 filtres couche 3 : taille 5

x

^Conv

ReLU

Conv ReLU

Conv

ReLU

(…)

Couche 1 Couche 2 Couche 3

100 neurones

Pour ces 3 couches convolutionnelles

Convolution «same» Stride 1

• 1200 neurones au total

• 196 paramètres au total

(49)

10

3x(100-7+1)=282 neurones 7x3 = 21 paramètres

5x(94-5+1)=450 neurones 5x5x3 = 75 paramètres

4x(90-5+1)=344 neurones 4x5x5 = 100 paramètres

94 90 86

Exemple : 3 filtres couche 1 : taille 7 5 filtres couche 2 : taille 5 4 filtres couche 3 : taille 5

x

^Conv

ReLU

(…)

Couche 1 Couche 2 Couche 3

100 neurones

Pour ces 3 couches convolutionnelles

Convolution «valid» Stride 1

• 1076 neurones au total Conv

ReLU

Conv ReLU

(50)

32

3

32

3 Stride :1

32

5

32

4 3x(32x32)=3,072 neurones

3x7x7x3 = 441 paramètres

5x(32x32)=5,120 neurones 5x9x9x3 = 1,215 paramètres

Image RGB : couche 1 : 3 filtres de taille 7x7 couche 2 : 5 filtres de taille 9x9 couche 3 : 4 filtres de taille 11x11 convolution «same»

32

3

32

3 Image: 32x32x3 Stride :1

32

5

32

4

12,288 neurones au total

4,076 paramètres au total

(51)

3

5

4

3x(26x26)=2,028 neurones 3x7x7x3 = 441 paramètres

4x(8x8)=256 neurones 4x11x11x5 = 2,420 paramètres

Image RGB : couche 1 : 3 filtres de taille 7x7 couche 2 : 5 filtres de taille 9x9 couche 3 : 4 filtres de taille 11x11 convolution «valid»

32

3

26

18

5

8

4

3,904 neurones au total

(52)

convolution se termine par une couche de sortie avec 1 neurone

par variable prédite

4 classes de sortie

32

3

26

18

5

8

4

Conv ReLU

Conv

ReLU risation^Linéa- 1

,1 

yW x

,0 

yW x

,3 

yW x

,2 

yW x

Hinge loss

(…)

Couche pleinement

connectée (fully-connected layer) 256

(53)

3

5

4

Conv

ReLU Conv

ReLU

Conv

ReLU risation^Linéa- 1

,3 

yW x

,2 

yW x

(…

Couche pleinement

connectée (fully-connected layer)

Multiplication Matrice-vecteur

4 classes de sortie

32

3

26

18

5

8

4

1

Hinge loss

(…)

 

 ^W ^h ^W ^h ^W ^x 

W x

y ( ) 

^[⁴^] ^[³^]



^[²^]



^[¹^]



] 4

W

[ ]

1

W[ W^[²^] W^[³^]

)

0(

, x

y_W )

1(

, x y_W

)

2(

, x

y_W )

3(

, x y_W 256

(54)

Filtres convolutifs Matrice 4x256

4 classes de sortie

32

3

26

18

5

8

4

Nombre total de neurones? ¹

Cross-entropy loss

(…)

S O F T M A X

)

0(

, x

y_W )

1(

, x y_W

)

2(

, x

y_W )

3(

, x

y_W 256

(55)

3

5

4

26x26x3 + 18x18x5 + 8x8x4 + 4 1

(… M

A X

)

2(

, x

y_W )

3(

, x

y_W

4 classes de sortie

32

3

26

18

5

8

4

1

Cross-entropy loss

(…)

S O F T M A X

)

0(

, x

y_W )

1(

, x y_W

)

2(

, x

y_W )

3(

, x

y_W 256

(56)

32

3

26

18

5

8

4

Nombre total de paramètres? ¹

(…)

S O F T M A X

)

0(

, x

y_W )

1(

, x y_W

)

2(

, x

y_W )

3(

, x

y_W 256

4 classes de sortie

32

3

26

18

5

8

4

3x7x7x3 + 5x9x9x3 + 4x11x11x5 + 256x4 1

Cross-entropy loss

(…)

S O F T M A X

)

0(

, x

y_W )

1(

, x y_W

)

2(

, x

y_W )

3(

, x

y_W 256

(57)

3

5

4

5,100 paramètres

1

(… M

A X

)

2(

, x

y_W )

3(

, x

y_W

Réseaux à convolution vs

Réseaux pleinement convolutionnels

(58)

3

5

4

1

,3 

yW x

,2 

yW x

(… T

M A X

 

 ^W ^h ^W ^h ^W ^x 

W x

y

_W

( ) 

^[⁴^] ^[³^]



^[²^]



^[¹^]



Il est possible de remplacer la multiplication matrice-vecteur de la fin par une convolution

Exemple 1d

(convolution « valid »)

40 50 70 80 90 10 20 30 40 * .2 ^-.3 .4 = 21 21 26 -7 23 8 11

9 3 7

(59)

.2 ^-.3 .4 ^-.5 .6 ^-.7 .8 44 ^-8 44

40 50 70 80 90 10 20 30 40 * =

Exemple 1d

(convolution « valid »)

9 7 3

(60)

40 50 70 80 90 10 20 30 40 * ^.2 ^-.3 ^.4 ^-.5 ^.6 ^-.7 ^{.8 .9 -1} = ³¹

9 9 1

Signal d’entrée de taille 9convolué avec un filtre « same » de taille 9 correspond à une couche pleinement connectée

40 50 70 80 90 10 20 30 40

.2 ^-.3 .4 ^-.5 .6 ^-.7 .8 .9 -1

31

        



Convolution

40 50

90

10 70 80

20 30

x _w^^T_x^

2

0. w

3

1. w

4

2. w

5

3. w

6

4. w

7

5. w

8

6. w

9

7. w

81 w

(61)

1

1 filtre convolutif de taille 8x8x4 Linéa-

risation

Couche pleinement

connectée

Même chose pour une convolution 2D

8

4

4 filtres convolutifs de taille 8x8x4 Linéa-

risation

Couche pleinement

connectée 8

4

256

1

(…)

(62)

3

5

4

1

M A X

)

2(

, x

yW

)

3(

, x

yW

32

3

26

3

18

5

8 4

S O F T M A X

)

0(

, x

y_W )

1(

, x

yW

)

2(

, x

yW

)

3(

, x

yW

Mathématiquement équivalent

32

3

26

18

5

8 4

256

1

(…)

S O F T M A X

)

0(

, x

y_W )

1(

, x

yW

)

2(

, x

yW

)

3(

, x

yW

32 26

3

18

5

8 4

S O F T M A X

)

0(

, x

yW

)

1(

, x

yW

)

2(

, x

yW

)

3(

, x

yW

À faire au tp2

(63)

En fait, presque équivalent …

Question : qu’arrive-t-il si on remplace l’image 32x32x3 par une image 64x64x3?

Pooling

(64)

128 64

128

64 64 pooling

pooling (Illustration pour une

carte d’activation)

Max pooling

1 2 4 4 9 3 1 2

6 7 8 4 -3 -3 6 3 9 -9 8 -4 5 5 3 0 8 -8 9 -9 5 5 0 1

0 0 1 2 7 9 7 8

-1 -3 3 6 8 8 7 6 9 9 8 2 1 5 -1 -1 1 1 -2 8 3 7 4 -2

7 8 9 6

9 9 5 3

0 6 9 8

9 8 7 4

Max pool par filtre 2x2 avec stride =2

(65)

-1 -3 3 6 8 8 7 6 9 9 8 2 1 5 -1 -1 1 1 -2 8 3 7 4 -2

5 4 4 1

2x2 avec stride =2

Max pooling

1 2 4 4 9 3 1 2

6 7 8 4 -3 -3 6 3 9 -9 8 -4 5 5 3 0 8 -8 9 -9 5 5 0 1

0 0 1 2 7 9 7 8

-1 -3 3 6 8 8 7 6 9 9 8 2 1 5 -1 -1 1 1 -2 8 3 7 4 -2

Max pooling2x2 avec stride =1

(66)

1 2 4 4 9 3 1 2 6 7 8 4 -3 -3 6 3 9 -9 8 -4 5 5 3 0 8 -8 9 -9 5 5 0 1

0 0 1 2 7 9 7 8

-1 -3 3 6 8 8 7 6 9 9 8 2 1 5 -1 -1 1 1 -2 8 3 7 4 -2

Max pooling3x3 avec stride =2

Crédit : cs231 Stanford

Illustration d’un CNN complet

(67)

8

Global pooling

(max ou mean)

1 8

Multiplication matricielle parcimonieuse

https://towardsdatascience.com/a-comprehensive-introduction-to-

(68)

X0 X1 X2 X3

X4 X5 X6 X7

X8 X9 X10 X11 X12 X13 X14 X15

W0 W1 W2

W3 W4 W5

W6 W7 W8

Y1 Y2

Y3 Y4

* =

Entrée Filtre

Il est plus rapide de multiplier des matrices que de les convoluer.

X0 X1 X2 X3

X4 X5 X6 X7

X8 X9 X10 X11 X12 X13 X14 X15

W0 W1 W2

W3 W4 W5

W6 W7 W8

Ex.: convolution «valid», un canal d’entrée et une carte d’activation, filtre 3x3

Y0 Y1

Y2 Y3

* =

Entrée Filtre

On peut remplacer uneconvolution par une multiplication matrice-matrice oumatrice-vecteur De façons :

1- en linéarisant l’entrée et en « matriçant » le filtre

2- en linéarisant le filtre et en « matriçant » l’entrée

(69)

Y0=W0.X0+W1.X1+W2.X2+W3.X4+W4.X5+W5.X6+W6.X8+W7.X9+W8.X10

Rappel

X0 X1 X2 X3

X4 X5 X6 X7

X8 X9 X10 X11 X12 X13 X14 X15

W0 W1 W2

W3 W4 W5

W6 W7 W8

Ex.: convolution «valid», un canal d’entrée et une carte d’activation, filtre 3x3

Y0 Y1

Y2 Y3

Y1=W0.X1+W1.X2+W2.X3+W3.X5+W4.X6+W5.X7+W6.X9+W7.X10+W8.X11