1Réseaux de neuronesIFT 780Modèles génératifsParPierre-Marc Jodoin2Jusqu’à présent : apprentissage superviséClassificationRégression3Frontièrede décisionobtenuepar entraînementInriapersondatasetEspaceà 9,984 dimensionsAutrePersonne

(1)

Réseaux de neurones

IFT 780

Modèles génératifs

Par Pierre-Marc Jodoin

2

Jusqu’à présent : apprentissage supervisé

Classification Régression

3 Frontière de décision obtenue par entraînement

Inria person dataset

Espace à 9,984 dimensions

Autre Personne

(2)

Apprentissage supervisé

4

Deux grandes familles d’applications

Classification : la cible est un indice de classe t ∈{1, ... , K}

• Exemple : reconnaissance de caractères

 : vecteur des intensités de tous les pixels de l’image

t : identité du caractère

Régression : la cible est un nombre réel t ∈ℝ

• Exemple : prédiction de la valeur d’une action à la bourse

 : vecteur contenant l’information sur l’activité économique de la journée

t : valeur d’une action à la bourse le lendemain x

x

Supervisé vs non supervisé

Apprentissage supervisé : il y a une cible

Apprentissage non-supervisé: la cible n’est pas fournie

5

     

 ^x ^t ^x ^t ^x

_N

^t

_N



D

₁

,

₁

,

₂

,

₂

, ,  ,

 

 

 ^x ^x ^x

_N



D 

 



₁

,

₂

, ,



x t=chien

CNN LossLoss

Apprentissage supervisé avec CNN

(3)

7

Apprentissage non supervisé

Comprendre la distribution sous-jacente de donnéesnon-étiquettées Applications: clustering, visualization, compréhension, etc.

Exemple: visualization de la distribution des images MNIST

https://blog.fastforwardlabs.com/2016/08/12/introducing-variational-autoencoders-in-prose-and.html

8

Apprentissage non supervisé

Souvent, l’apprentissage non-supervisé inclut un (ou des) variables latentes.

Variable latente: variable aléatoire non observée mais sous-jacente à la distribution des données

Ex: clustering = retrouver la variable latente “cluster”

Pourquoi une variable latente?

Plus facile de représenter que

) ( ),

| ( ), ,

( x z p x z p z

p  

) (x p 

Plus d’info dans une

autre vidéo

(4)

En apprentissage non-supervisé nous nous appuierons sur 2 propriétés des réseaux de neurones

Propriété 1

x1

x2

Données en entrée

x 

Sortie de la dernière couche Sortie du réseau ) (x yW



x 

h h h h h h

h h h

h 

h ^y^W^(x⁾



Les réseaux de neurones sont d’excellentes machines pour projeter des données brutes vers un espace dimensionnel plus faible dont les propriétés dépendent de la loss(ici espace linéaire car la sortie du réseau est un classifieur linéaire).

Propriété 2

x1

x2

x 

h h h h h h

h h h

h 

h ^y^W⁽^x⁾^~^P⁽^c¹^|^x^,^W⁾



Les réseaux de neurones sont d’excellentes machines pour estimer des probabilités conditionnelles.

(5)

Softmax exp

norm

exp exp

c Wx P 0| ,



c Wx

P 1| ,



c Wx

P 2| ,

 x2

1 1 ,

w0

2 ,

w0

0 ,

w0 1 ,

w1

2 ,

w1

0 ,

w1 1 ,

w2

2 ,

w2

0 ,

w2

x1

0T

W x 

1

W x T

2

W x T

0T

0 2 T

0

( )

j W x

W W x

j

y x e

e



 

  

T 1

1 2 T

0

( )

j W x

W W x

j

y x e

e



 

   T2

2 2 T

0

( )

j W x

W W x

j

y x e

e



 

  

Prob cond

Propriété 2

Les réseaux de neurones sont d’excellentes machines pour estimer des probabilités conditionnelles.

1 0.0 0.01 0.05 0.1 0.05 15 0.2 0.7 0.2 0.05 0.16 22

0.3 0.0 0.45 0.2 0.03 44 56

 

 

 

   

   

   

   

 

  15

22 , 2

44 56

x t



 

 

 

 

 

 



exp 0.06 2.36 1.32

 

 

 

norm 0.02 0.63 0.35

 

 

 

  ln 0.35



 0.452

Softmax Entropie

croisée

2.85 0.86 0.28



 

 

 

Score

W

x 



c W x



P 

,

|

Rappel

Comment utiliser un réseau de neurones pour apprendre la configuration sous-jacente de données non étiquettés?

(6)

x5

x6

R

10

x 

h h h h h h

h h h

h h

x7

x8

x3

x4

x1

x2

x9

x10

h h h

h h h h h h

'5

x '6

x '7

x '8

x '3

x '4

x '1

x '2

x

'9

x '10

x

'

2

x x Loss    

' R

10

x  

x5

x6

x 

h h h h h h

h h h

h h

x7

x8

x3

x4

x1

x2

x9

x10

h h h

h h h h h h

'5

x '6

x '7

x '8

x '3

x '4

x '1

x '2

x

'9

x '10

x

' x  Encodeur Décodeur

x5

x6

x 

h h h h h h

h h h

h h

x7

x8

x3

x4

x1

x2

x9

x10

h h h

h h h h h h

'5

x '6

x '7

x '8

x '3

x '4

x '1

x '2

x

'9

x '10

x

' x  Encodeur ^Décodeur

R

2

z 



Variable latente:

Sortie de l’encodeur

(7)

x 

D _D

x' 

R

d

z 

 D d 

Encodeur Décodeur

x 

D _D

x'  Couches pleinement connectées

FC-h-FC-h-FC-h…FC

z   R

^d

activation d'

fonction :

h

FC-h-FC-h-FC-h…FC

x 

D _D

x' 

FC-h-FC-h-FC-h…FC

z   R

^d

FC-h-FC-h-FC-h…FC En général…

pas de fonction d’activation à la sortie de l’encodeur et du décodeur

Selon vous, pourquoi?

(8)

x 

D _D

x' 

FC-h-FC-h-FC-h…FC

z   R

^d

FC-h-FC-h-FC-h…FC,

Parfois sigmoïdeen sortie lorsque les pixels ont des niveaux de gris entre 0 et 1.

ou ReLUlorsque les nivaux de gris peuvent être élevés et jamais négatifs

ou ReLU

x 

D _D

x' 

FC-h-FC-h-FC-h…FC

z   R

^d

FC-h-FC-h-FC-h…FC

Le nombre de neurones

Décroit ou se maintient

d’une couche à l’autre

Le nombre de neurones

Augmente ou se maintient

d’une couche à l’autre

x 

D _D

x' 

FC-h-FC-h-FC-h…FC

z   R

^d

FC-h-FC-h-FC-h…FC Très souvent…

La structure de l’encodeur est le dual de celle du décodeur

(9)

class autoencoder(nn.Module):

def__init__(self):

super(autoencoder, self).__init__() self.encoder = nn.Sequential(

nn.Linear(28 * 28, 128), nn.ReLU(True), nn.Linear(128, 64), nn.ReLU(True), nn.Linear(64, 12), nn.ReLU(True), nn.Linear(12, 2))

self.decoder = nn.Sequential(

nn.Linear(2, 12), nn.ReLU(True), nn.Linear(12, 64), nn.ReLU(True), nn.Linear(64, 128), nn.ReLU(True), nn.Linear(128, 28 * 28))

defforward(self, x):

z = self.encoder(x) x_prime = self.decoder(z) return x_prime

Autoencodeur jouet de MNIST

Espace latent 2D

class autoencoder(nn.Module):

def__init__(self):

super(autoencoder, self).__init__() self.encoder = nn.Sequential(

nn.Linear(28 * 28, 128), nn.ReLU(True), nn.Linear(128, 64), nn.ReLU(True), nn.Linear(64, 12), nn.ReLU(True), nn.Linear(12, 2))

nn.Linear(2, 12), nn.ReLU(True), nn.Linear(12, 64), nn.ReLU(True), nn.Linear(64, 128), nn.ReLU(True), nn.Linear(128, 28 * 28))

defforward(self, x):

z = self.encoder(x) x_prime = self.decoder(z) return x_prime

Autoencodeur jouet de MNIST

symétrie

https://gertjanvandenburg.com/blog/autoencoder/

Visualisation de l’espace latent pour 1000 images MNIST

chaque image correspond à 1 point 2D

(10)

Générer des images avec le décodeur.

https://gertjanvandenburg.com/blog/autoencoder/

x 

D _D

x'  Couches convolutives

Conv-h-Conv-h-…FC

z   R

^d

D d 

FC-h-Conv-h…Conv

x 

D _D

x'  Autoencodeur pleinement convolutif

Conv-h-Conv-h-…Conv

z   R

^d

D d 

Conv-h-Conv-h…Conv

(11)

Autoencodeur de base

z 

x  x  '

Autoencodeur pour débuitage

Bruit

' x x Loss     x 

' x 

x ˆ

^z^

Une fois entraîné…

Signal bruité en entrée

Signal reconstruit et débruité

(12)

x5

x6

x 

x7

x8

x3

x4

x1

x2

x9

x10

'5

x '6

x '7

x '8

x '3

x '4

x '1

x '2

x

'9

x '10

x

' x 

Autoencodeur à une couche et sans fonction d’activation

x5

x6

x 

x7

x8

x3

x4

x1

x2

x9

x10

'5

x '6

x '7

x '8

x '3

x '4

x '1

x '2

x

'9

x '10

x

' x 

z W x

x W z  



2 1

'



4 10 2

10 4 1





 R W

R W

x5

x6

x 

x7

x8

x3

x4

x1

x2

x9

x10

'5

x '6

x '7

x '8

x '3

x '4

x '1

x '2

x

'9

x '10

x

' x 

z W x

x W z  

 

2 1

'

 x  W W x 

1

'

2

(13)

x5

x6

x 

x7

x8

x3

x4

x1

x2

x9

x10

'5

x '6

x '7

x '8

x '3

x '4

x '1

x '2

x

'9

x '10

x

'

x 

2

1 2

W x W x

Loss    

x5

x6

x 

x7

x8

x3

x4

x1

x2

x9

x10

'5

x '6

x '7

x '8

x '3

x '4

x '1

x '2

x

'9

x '10

x

' x 

 ^W

^T

^W  ^W

^T

W

₁



₂ ₂ ^¹ ₂

On peut démontrer que la solution est

x5

x6

x 

x7

x8

x3

x4

x1

x2

x9

x10

'5

x '6

x '7

x '8

x '3

x '4

x '1

x '2

x

'9

x '10

x

' x 

W 1

On peut démontrer que la solution est

Matrice constituée des principaux vecteurs propres

de la matrice de variance-covariance.

des données

(14)

x5

x6

x 

x7

x8

x3

x4

x1

x2

x9

x10

'5

x '6

x '7

x '8

x '3

x '4

x '1

x '2

x

'9

x '10

x

' x 

DONC

Autoencodeur linéaire

=

Analyse en composantes principales (ACP)

E. Plaut, From Principal Subspaces to Principal Components with Linear Autoencoders, arXiv:1804.10253v3, 2018

En général, l’espace latent possède entre 16 et 128 dimensions.

Ça peut être parfois plus, et parfois moins.

R

d

z 

Comment, dans cet espace infini, trouver un point qui donnera une image valable un fois décodée?

z

Décodeur

Avec de la chance, on peut sélectionner un point au hasard et reproduire une « bonne » image (ici une image « MNIST »)

R

d

z  

Décodeur

(15)

Malheureusement, la vaste majorité du temps, on reproduira du bruit

R

d

z  

Au lieu d’apprendre à reproduire un signal d’entrée…

Apprendre à reproduire une distribution connue de sorte qu’un point échantillonné et décodé de cette distribution correspond à un signal reconstruit valable

  z p 

' x 

Autoencodeur de base Rd

z

 z P

Autoencodeur variationnel

Rd

z

x 

x  x  '

(16)

 z P

L’encodeur produit une distribution et non juste un point

 

z P z

x 

 zx P|

Autoencodeur variationnel Remarque 1

Puisque la distribution de dépend de on dira que la distribution apprise est

  z x P  

|

z 

x 

Rd

z

On échantillonne un au hasardz~p

 

z|x

x 

 zx P|

(17)

x 

 zx P

|

Rd

z On reconstruit

' x  '

x 

 zx P|

Rd

z

x  '

NOTE: peut être arbitrairement compliquée et difficile à échantillonner

Solution: approximer par une distribution plus simple

 

z x P|

 

z x P

| Q

 

z|x

x  Q   z  x 

|

Rd

z Rd

^

d

Rd^





x  '

 z | x  ~ Gaussienne

Q  

(18)

Autre façon de voir les choses…

https://ijdykeman.github.io/ml/2016/12/21/cvae.html

Autre façon de voir les choses…

x  Q   z  x 

|

Rd

z Rd

^

d

Rd^





x  '

   z N z ; 0 , 1 

P   

Distribution a priori de : gaussienne centrée à 0 et de variance 1z

 z;0,1 N

(19)

Autre façon de voir les choses…

 z ; 0 , 1 

N 

Pour simplifier davantage les calculs, on va supposer que est diagonale

On va donc prédire un vecteur de variances et non une matrice

















2 2 3 2 2 2 1

0 0 0 0

d







x  Q   z  x 

|

Rd

z Rd

^

d

Rd^





' x 

 z;0,1 N

x  Q   z  x 

|

Rd

z Rd

^ Rd



^2

' x 

 z;0,1 N

(20)

Le décodeurpeut également produire une distribution de probabilités

et est un point échantillonné au hasard de

 

xz P 

|

RD

x'

 

xz P| '

x

x  Q   z  x 

|

Rd

z Rd

^ Rd



^2

 z;0,1 N

  ^x ^z

P  

|

   

 N z N z   P  x z  

KL

Loss     

| log ,

; , 1 , 0

;  

 

ELBO loss : Evidence Lower Bound

Perte encodeur Perte décodeur Preuve au

tableau

(si le temps le permet)

RD

x'

x  Q   z  x 

|

Rd

z Rd

^ Rd



^2

 z;0,1 N

  ^x ^z

P  

|

 

   P   x z 

Loss

d i

i i i



 | log log

2 1 1

1

2 2

2

  



 









Perte encodeur Perte décodeur

D.Kingma, M.Welling, Auto-Encoding Variational Bayes,arXiv:1312.6114v10 (Annexe B)

RD

x'

x  Q   z  x 

|

Rd

z Rd

^ Rd



^2

 z;0,1 N

  ^x ^z

P  

|

(21)

 

  ^ ^P ^{ } ^x ^z ^

Loss

^d

i

i i i



 | log log

2 1 1

1

2 2

2

  



 









 

²

1

2 2

2

'

log 2 1

1 x x

Loss

^d

i

i i i



 







 











 |  est gaussienne que

suppose on

si P x  z 

^

^2

sampling z Pas de rétro-propagation à travers un processus d’échantillonnage

 ; ,

~ ^^

 Nz

z

^

^2

sampling z Pas de rétro-propagation à travers un processus d’échantillonnage

^

^2

z Reparameterization trick

 + +

**

sampling

2



^ ^

  z

 ; ,

~ ^^

 Nz

z

(22)

classVAE(nn.Module):

def__init__(self):

super(VAE, self).__init__() self.encoder = nn.Sequential(

nn.Linear(28 * 28, 128), nn.ReLU(True), nn.Linear(128, 64), nn.ReLU(True), nn.Linear(64, 32*2)

nn.Linear(32, 64), nn.ReLU(True), nn.Linear(64, 128), nn.ReLU(True), nn.Linear(128, 28 * 28)) defreparameterize(self, mu, var):

eps = torch.randn_like(var) return mu + eps*var defforward(self, x):

enc_x = self.encoder(x) mu = enc_x[:, :32]

var = stats[:, 32:]

z = self.reparameterize(mu, var) return self.decoder(z), mu, var

Autoencodeur variationnel jouet MNIST : d=32 dim

Reparameterization trick

defloss_function(recon_x, x, mu, logvar):

L2 = torch.sum((recon_x-x).pow(2))

KLD = -0.5 * torch.sum(1 + var.log() - mu.pow(2) - var) return L2 + KLD

Autoencodeur variationnel jouet MNIST : d=32 dim

Ex.: base de données CelebA

https://github.com/yzwxx/vae-celebA

x 

'

x 

(23)

Ex.: base de données CelebA

https://github.com/yzwxx/vae-celebA

Décodage d’échantillons aléatoiresz

NOTE: on peut également conditionner un espace latent en y

«injectant les gradients d’un 2^eréseau de neurones»

R2

z

x  x  '

(24)

R2

z

x  x  '

R2

z

x  x  '

Autoencodeur contraint

 4 t

Régression linéaire (perceptron sans couche cachée)

t

R2

z

x  x  '

 4

t L

1

x  x  '

²





2

t t

L   

t

(25)

R2

z

x  x  '

 4 t

2 1 2

1

L L L

L L

encodeur reg décodeur







 t

L

1



L

2



R2

z

x  x  '

 4 t

2 1 2

1

L L L

L L







OBJECTIF t

Que les images dans l’espace latent soient linéairement distribuées en fonction de leur classe

R2

z

x  x  '

 4 t

2 1 2

1

L L L

L L







OBJECTIF t

La loss L1 force l’encodeur et le décodeur à reproduire l’image d’entrée.

(26)

R2

z

x  x  '

 4 t

2 1 2

1

L L L

L L







OBJECTIF t

La loss L2 force l’encodeur à projeter les images d’entrée vers un espace latent linéaire.

R2

z Autoencodeur de base

R2

z Autoencodeur de base

NOTE:

D’autres réseaux de neurones et d’autres loss peuvent être utilisés! Tout dépend de l’application

… et de votre créativité.

NOTE:

D’autres réseaux de neurones et d’autres loss peuvent être utilisés! Tout dépend de l’application

… et de votre créativité.

(27)

Plusieurs tutoriels, VAE

• https://ijdykeman.github.io/ml/2016/12/21/cvae.html

• https://wiseodd.github.io/techblog/2016/12/10/variational-autoencoder/

• https://towardsdatascience.com/deep-latent-variable-models-unravel-hidden-structures- a5df0fd32ae2

• C. Doersch, Tutorial on Variational Autoencoders, arXiv:1606.05908

GAN

Generative Adversarial Nets

On voudrait générer des images en échantillonnant

=> TROP DIFFICILE car trop complexe

 

^x

P x

 

x P

(28)

Comme précédemment, pour simplifier le problème, on pourrait introduire une variable latente et ainsi modéliserz

      ^x ^z ^P ^x ^z ^P ^z

P     

| , 

Modèle génératif Distribution a priori

Comme pour les VAE, on utilisera une distribution a priori facile à échantillonner : une gaussienne!

    ^z ^N ^z ^; ⁰ ^, ¹

P  



Comment estimer ?

^P   ^x ^ ^| ^z ^

À l’aide d’un réseau de neurones car ce sont d’excellentes machines pour estimer des probabilités conditionnelles

(29)

  x z P  

sampling z

|

Rd

z

 z;0,1 N

Dépendamment des performances du décodeur, les images générées seront de qualité très variable.

Mauvaise qualité Moyenne

qualité Bonne qualité Générateur

Pour entraîner un décodeur, il faut une fonction de perte (loss) qui mesure la qualité (degré de réalisme) des images produites

x 

' x Pour un autoencodeur (variationnel ou non) c’est facile!

car on a un encodeur et une image de référence

'

2

x x Loss    

z

P   x  z 

|

Générateur

Pour entraîner un décodeur, il faut une fonction de perte (loss) qui mesure la qualité (degré de réalisme) des images produites

x 

' x Comment faire pour un réseau sans encodeur?

'

2

x x Loss  





z

^P   ^x ^ ^| ^z ^

Générateur

(30)

x

z

G   z 

Loss sans cible de référence?

x

z

P   x  z 

|

Loss sans cible de référence?

Approximer la perte à l’aide d’un 2^eréseau de neurones

et d’une

Base de données de référence

sampling z

Rd

z

Pour entraîner un décodeur, il faut une fonction de perte (loss) qui mesure la qualité des images produites

  z G 

Images synthétiques

Images réelles (BD : CelebA)

Synthétique Réel Discriminateur Générateur

(31)

sampling z

Rd

z

Pour entraîner un décodeur, il faut une fonction de perte (loss) qui mesure la qualité des images produites

  z G 

D

Données étiquetées

) ' '(

0 synthétiqu e t 

) ' '(

1 réel

t 

Produites par le générateur

Issues d’une vraie BD

Deux réseaux aux objectifs différents :

Discriminateur: différentiE les images synthétiques des images réelles

Synthétique

Réel

D

(32)

Discriminateur: classifieur binaire (régression logistique)

=> Pertel’entropie croisée

Synthétique

Réel

D D

 

  

i

   

i



i

i i

D t y x t y x

L  N¹



 ^ln   ¹ ^ln¹ 

x1

x2

x 

h h h h h h

h h h

h 

h ^y⁽^x⁾^~^P⁽^c¹^|^x^,^W⁾



Rappel, entropie croiséepour une régression logistique binaire:

 

  

_i

   

_i



i

i i

D t D x t D x

L  N¹



 ^ln   ¹ ^ln¹  Le réseau discriminateur est représenté par lalettre D

x  D

_{ }

x D 

(33)

 

  

_i

    

_i

 

i i i

D t D x t D G z

L  N¹



 ^ln   ¹ ^ln¹  Puisque les images synthétiquesont été générées par le générateur

D x 

  ^z

G 

 

Gz

D 

 x D

 

  _      



^ ^





j

j i syn

i reel

D DG z

x N N D

L  

1 1 ln 1 ln

Sans perte de généralité, séparer la loss des images réelles et synthétiques

D x 

  z G 

 

DGz 

ln1

 

Dx

ln Perte images réelles Perte images synthétiques

 

^x ^



^xp ^x ^dx

IE ( )

Rappel: Espérance mathématique et approximation Monte Carlo



^f

 

^x



^



^f ^x ^p ^x ^dx

IE ( ) ( )

(34)

 

^x ^



^xp ^x ^dx

IE ( )

Rappel: Espérance mathématique et approximation Monte Carlo



^f

 

^x



^



^f ^x ^p ^x ^dx

IE ( ) ( )

où 1

1

~p(x) x

N x ⁱ

N

i i







 

où 1

1

~p(x) x x

N f ⁱ

N i



i



 approximation

Monte Carlo

 

  _      



^ ^





j

j i syn

i reel

D DG z

x N N D

L  

1 1 ln 1 ln

Rappel: Espérance mathématique et estimateur Monte Carlo

Perte images réelles Perte images synthétiques

 



D x



IE

 

D



G

 

z

  

IE

LD x P_reel z P_z



 _

  



 ~ ln ~ ln1

Objectif du discriminateur

 

 D x  IE   DG z 

IE

WD WD xPreel z Pz



 

  



argmin _~ ln _~ ln1

Paramètres du discriminateur

Ou encore, de façon équivalente

 

 D x  IE   DG z

IE

WD WD xPreel z Pz



 

  

argmax _~ ln _~ ln1

(35)

Objectif du générateur

sampling z

Rd

z

G   z 

D

Produire des images aussi réalistes que celles de la BD de référence

Objectif du générateur

sampling z

Rd

z

G   z 

Images synthétiques très réalistes

D

S’il y parvient, le discriminateur ne pourra plus les distinguer des images réelles. La loss du discriminateur sera alors élevée.

Objectif du discriminateur :

bien distinguer les images réelles des images synthétiques

 

 D x  IE   DG z

IE

W _reel _z

D xP zP

D W



 

  

argmax _~ ln _~ ln1

Objectif du générateur :

produire des images synthétiques indistinguables des images réelles

 

 ^D^G ^z 

IE WG WG z Pz

  

argmin _~ ln1

(36)

« Two player » mini-max game

NOTE pour le générateur

dans les faits, on ne minimise pas cette loss

on maximise plutôt la « non-saturated loss »

 

 DG z 

IE WG WG z Pz

  

argmin _~ ln1

 

 D Gz 

IE

W _z

G z P

G W

 ln 

max

arg _~



Gradient de la minimaxloss ~0 près de la mauvaise solution Gradient de la non-saturatedloss >>0 près de la mauvaise solution

(37)

Deep Convolution Generative Adversarial Net (DCGAN)

8

Radford et al, “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks”, ICLR 2016

Deep Convolution Generative Adversarial Net (DCGAN)

11

Recommandations discriminateur

• Conv stride>1 au lieu des couches de pooling

• ReLU partout sauf en sortie : tanh Recommandations générateur

• Conv transpose au lieu de upsampling

• LeakyReLU partout Autre recommandations

• BatchNorm partout

• Pas de FC, juste des conv

(38)

Deep Convolution Generative Adversarial Net (DCGAN)

11

Recommandations discriminateur

• Conv stride>1 au lieu des couches de pooling

• ReLU partout sauf en sortie : tanh Recommandations générateur

• Conv transpose au lieu de upsampling

• LeakyReLU partout Autre recommandations

• BatchNorm partout

• Pas de FC, juste des conv

https://github.com/soumith/ganhacks

Deep Convolution Generative Adversarial Net

(DCGAN)

Interpolation entre 9 vecteurs latents aléatoires

(39)

“Vector arithmetic for visual concepts”

Problèmes d’instabilité

● Si discriminateur et générateur et n'apprennent pas ensemble:

○ disparition des gradients

○ effondrement des modes

○ on ne peut générer d’images à haute résolution

● Plusieurs solutions proposées:

○ Wasserstein GAN (utilise “earth mover distance”)

○ Least Squares GAN (utilise distance d’erreur quadratique)

○ Progressive GAN

○ ….

116

LS GAN

117

Problème des GANs de base

“sigmoïdede sortie” oublieles exemples correctement classifiés et loin du plan de séparation

“Least Squares GAN” Mao et al. ICCV’17

(40)

LS GAN

118

Problème des GANs de base

“sigmoïde de sortie” oublie les exemples correctement classifiés et loin du plan de séparation

Le discriminateur ne s’entraîne plus lorsque les images synthétiques sont très différentes des images réelles

LS GAN

Quand on utilise l’erreur quadratique, même les exemples « trop biens classifiés » contribuent aux gradients du générateur. Le but est de rapprocher les images synthétiques des images réelles

Pour LS GAN, la sortie du réseau n’est plus une sigmoïde

LS GAN

(41)

progressive GAN

On commence avec des images de faible résolution : 4x4 pixels

“Progessive GAN” Karras et al. ICLR’18 On veut générer des images à haute résolution

progressive GAN

Et progressivement, on augmente la résolution de l’image

“Progessive GAN” Karras et al. ICLR’18

progressive GAN

Et progressivement, on augmente la résolution de l’image

“Progressive Growing GAN requires that the capacity of both the generator and discriminator model be expanded by adding

layers during the training process”

(42)

progressive GAN

“Progessive GAN” Karras et al. ICLR’18 Et progressivement, chaque couche qu’on ajoute vient bonifier la couche

précédente : cela se fait à l’aide d’une opération « résiduelle ».

Ajout de couches

“Progessive GAN” Karras et al. ICLR’18 Lorsque l’entraînementd’une couche de résolution RxR (ici 16x16) est terminé…

Ajout de couches

… On ajoute une nouvelle couche de résolution 2Rx2R (ici 32x32) au générateur ET au discriminateur.

(43)

Ajout de couches

… mais pour éviter un choc, on ajoute une composante résiduelle comprenant un facteur a Au début de l’entrainement, a=0et progressivemntaaugmente pour atteindre a=1 à la fin

Ajout de couches

“Progessive GAN” Karras et al. ICLR’18 Lorsque l’entraînement est terminé, on enlève la composante résiduelle.

(44)

130

https://youtu.be/XOxxPcy5Gr4

Style GAN

Le Générateur reçoit une version modifiée “w” par 8 couches FC du vecteur latent “z”

Karas et al. A Style-Based Generator Architecture for Generative Adversarial Networks, CVPR 2019

Style GAN

Le Générateur reçoit une version modifiée “w” par 8 couches FC du vecteur latent “z”

Et ce, à chaque couchedu réseau

(45)

Style GAN

133

AdaIN: adaptive instance normalization

Comme du batchNorm, mais dont les 2 opérateurs affines sont fournis par w

     

   y x

x y x y x

AdaIN 



  

 ,

Style GAN

L’entrée du réseau est un tenseur constantappris par entraînement

Style GAN

135

Du bruitest multiplié à chaque carte d’activation de chaque couchedu réseau

(46)

Effet du bruit

Style GAN

Entraînement progressif comme pour progressive GAN

Style GAN

(47)

Défi avec les GAN

Soit un GAN entraîné sur MNIST, si je décode 10 vecteurs latents pris au hasard, j’aurai les images de 10 caractères aléatoires.

Défi avec les GAN

Question: comment générer des images de catégories

prédéterminées? Ex. comment sélectionner 10 vecteurs latent afin de produire la séquence de caractères : 0,1,2,3,4,5,6,7,8,9?

Gan conditionnel

Mirza, Mehdi & Osindero, Simon. (2014). Conditional Generative Adversarial Nets. arXiv:1411.1784v1

L’idée est d’encoder un vecteur latent ainsi qu’un vecteur de classe « one-hot »

z

y

(48)

Gan conditionnel

Et de discriminer une image avec le même « one-hot »

x

y

Gan conditionnel

GAN de base

GAN conditionnel

Version convolutionnelle

https://medium.com/@sam.maddrellmander/conditional-dcgan-in-tensorflow-336f8b03b7b6

G(z|y)

(49)

Version convolutionnelle

D(x|y)

Version convolutionnelle

D(x|y) G(z|y)

“t-shirt“, ‘pants‘, ‘pullover‘, ‘dress‘, ‘coat‘, ‘sandal‘, ‘shirt‘, ‘sneaker‘, ‘bag‘, ‘ankle boot‘.

(50)

Code pytorch pour plus de 30 modèles de GANs

https://github.com/eriklindernoren/PyTorch-GAN

Belle vidéo sur les GANs et comment certains les utilise pour produire des

« deep fake »

https://www.youtube.com/watch?v=dCKbRCUyop8

1Réseaux de neuronesIFT 780Modèles génératifsParPierre-Marc Jodoin2Jusqu’à présent : apprentissage superviséClassificationRégression3Frontièrede décisionobtenuepar entraînementInriapersondatasetEspaceà 9,984 dimensionsAutrePersonne

IFT 780

Jusqu’à présent : apprentissage supervisé

Apprentissage supervisé

Supervisé vs non supervisé

     

 x t x t x

t



D

,

,

,

, ,  ,

 

 

 x x x



D 

 



,

, ,



Apprentissage supervisé avec CNN

Apprentissage non supervisé

Apprentissage non supervisé

Pourquoi une variable latente?

Plus facile de représenter que

) ( ),

| ( ), ,

( x z p x z p z

p  

) (x p 

Plus d’info dans une

autre vidéo

En apprentissage non-supervisé nous nous appuierons sur 2 propriétés des réseaux de neurones

Propriété 1

x 

x 

Propriété 2

x 

Propriété 2

W

x 





Rappel

R

x 

'

x x Loss    

' R

x  

x 

' x  Encodeur Décodeur

x 

' x  Encodeur Décodeur

R

z 



x 

x' 

R

z 

 D d 

Encodeur Décodeur

x 

x'  Couches pleinement connectées

z   R

activation d'

fonction :

h

x 

x' 

z   R

x 

x' 

z   R

x 

 ^x ^t ^x ^t ^x

^t

 ^x ^x ^x

' x  Encodeur ^Décodeur

 ^W

^W  ^W