Formalisation - (Application logarithme) L’application logarithme envoie des éléments du groupe

Modèle de Perception

Définition 8. (Application logarithme) L’application logarithme envoie des éléments du groupe vers l’algèbre

4.2.8 Formalisation

la figure 4.21 en utilisant différents descripteurs images. A chaque image, une seule itération de Gauss-Newton est effectuée. Conformément à l’expérience précédente, les descripteurs issus de couches entièrement connectées sont moins performants que les couches de convolutions les pré-cédant. Nous l’avons également testé sur des séquences du dataset [WLY13], avec les résultats sur la séquenceCar4à la dernière ligne de la figure 4.21. Bien que l’on obtienne des résultats corrects sur certaines séquences, notre algorithme reste limité au petit mouvement et aux objets rigides.

Il est toutefois possible, en effectuant plusieurs itérations de la mise à jour de Gauss-Newton, de suivre de plus grands mouvements mais au prix d’un temps de calcul élevé (calcul numérique des jacobiennes). De plus, pour avoir un véritable algorithme de suivi, il faudrait intégrer une mise à jour du descripteur de référence. L’idée est de resterdata drivenc’est à dire de représenter l’instance suivie par un ensemble de descripteurs et non par un modèle unique que l’on met à jour au fur à mesure. La poursuite de ce travail sera donc de trouver un critère permettant de savoir quand ajouter ou retirer un descripteur représentant un "mode" de l’instance. La formalisation qui va suivre a pour but d’obtenir des expressions permettant d’éviter le calcul numérique des jacobiennes à chaque ité-ration. De plus, elle pourrait également permettre, en utilisant les outils d’analyse matricielles, de mieux comprendre théoriquement les propriétés des descripteurs évoqués dans cette section.

ε x

_ij

x

_ij

Global Local

Figure 4.22 – Définition des coordonnées globales et locales pour la formalisation Expression du gradient d’un élémentφ^ij₀

Nous notons parxÎ_ij =^h(xeÎ_ij)^T 1ⁱ^T les coordonnées homogènes du pixel en position(i, j)dans l’imageI avecxêÎ_ij = ^hi jⁱ^T. De même,x_ij^ε ses coordonnées dans le repère local courant (figure 4.22).

Définissons la fonctionψ_εde changement de repère de la région objet (local) vers l’image (glo-bal)

ψ_ε :







[1, H₀]×[1, W₀]→[1, H]×[1, W]

x^ε 7→x^I =e^εx^ε (4.43)

avece=exp_SIM(2)l’application exponentielle deSIM(2).

Nous définissons la fonction c qui retourne la valeur d’un pixel à partir de ses coordonnées globales







[1, H]×[1, W]→R

x^I 7→c(x^I) (4.44)

A partir de (4.43) et (4.44), nous pouvons écrire la valeur d’un pixel dans son repère local

∀(i, j)∈[1, H₀]×[1, W₀], φ^ij₀(ε) = (φ₀(ε))_ij = (c◦ψ_ε)(x^ε_ij) (4.45) Nous en déduisons, en notantε_klak-ème coordonnée deεet en utilisant la règle de dérivation

12. En pratique, l’image est redimensionnée par interpolation bilinéaire.

en chaîne

∂φ^ij₀

∂εk

(ε) = ∂c

∂x

ψ_εx^ε_ij

∂exp_SIM(2)

∂εk

(ε)x^ε_ij

(4.46) Remarquons que le premier terme à droite est relié au gradient de l’image∇Iau pixelψ_εx^ε_ij.

Nous pouvons alors réécrire (4.46) de la façon suivante

∂φ^ij₀

∂ε_k(ε) = Γ^T_k,ε∇I^g x^ε_ij (4.47) avec

∀(i, j)∈[1, H₀]×[1, W₀], Γ_k,εx_ij^ε = ∂exp_SIM(2)

∂ε_k (ε)x^ε_ij ∈R³ (4.48)

∀(i, j)∈[1, H]×[1, W], ∇I(x_ij^I) = ^h^∂c

∂x(x_ij^I) ^∂c_∂y(x^I_ij) 0ⁱ^T ∈R³ (4.49)

∇Ig = ∇I◦ψ_ε (4.50)

Expression du gradient deφ₀sous forme vectorielle

Nous cherchons maintenant à obtenir l’expression vectorielle de ^∂φ_∂ε_k⁰, à savoir V ec^∂φ_∂ε⁰

(cf Définition 19, annexe B). Après arrangement, nous arrivons au résultat suivant

Proposition 1. Le gradient vectorisé d’une régionφ₀(ε)⊂I, de poseε ∈sim(2), peut se factoriser sous la forme

V ec ∂φ₀

∂k

= M_k(ε)∇Iˆ (φ₀(ε)) (4.51)

M_k(ε) = R^T_H₀_W₀I_H₀_W₀ ⊗D_Γ_k,ε(R_H₀_W₀ ⊗I₃) (4.52) avec

DΓ_k,ε =

Dx IH0W0 ⊗∂exp_SIM(2)

∂ε_k (ε)

, Dx =







x₁₁^T . ..

x^T_H

0W0







(4.53)

∇Iˆ (φ₀(ε)) = ^h∇I^g^T(x^ε₁₁) . . . ∇I^g^T(x^ε_H

01) ∇I^g^T(x^ε₁₂) . . . ∇I^g^T(x_H^ε

0W0)ⁱ^T (4.54) avecR_H₀_W₀ défini au théorème 11, annexe B.1.

Démonstration. Voir annexe B.3.1

Avec l’utilisation du produit de Kronecker, on aboutit à une expression relativement concise.

Un point intéressant de cette factorisation est que seul le second terme est dépendant de l’image, le second n’étant que fonction de la pose ε. Nous allons maintenant voir comment propager ce gradient à travers les différentes couches du réseau.

Expression du gradient d’un élément d’une couche supérieurφ^ij_l

En général, chaque couche de convolution d’un CNN est en fait une composition de "sous-couches" : convolutionφ^c_l, unité de rectification linéaire ReLU φ^ReLU_l et poolingφ^p_l. Pour les pre-mières couches, certains réseaux utilisent également une couche de normalisation locale LRN φ^LRN_l . Nous ignorons ici l’effet du pooling, ce qui nous donne une expression générale :

φ_l=φ^lnr_l ◦φ^relu_l ◦φ^c_l (4.55) Dans la suite, nous allons développer les expressions du gradient à travers chaque type de sous-couche.

Couche de convolution :Soientk_l, s_lrespectivement la taille et le décalage du filtre de convo-lution de la coucheφ^c_l. Afin de ne pas trop complexifier nos expressions , nous supposons icis_l = 1. Nous supposons également des noyaux carrés. SoitW_l ∈ M_k_l_,k_l la matrice des poids du filtre de convolution¹³. On a alors :

Proposition 2. L’expression vectorielle d’une couche de convolution fonction de la couche précé-dente est donnée par

V ec(φ^c_l) = Ω_lV ec(φ_l−1) (4.56) Ω_l = I_H_l_W_l ⊗V ec(W_l)^T Sˆ_β∗Sˆ_α (4.57) avec

Sˆβ =







Sβ1

... S_β_Wl,







, βi ={i−k_l−1

2 , . . . , i+k_l−1

2 } (4.58)

Sˆα =







Sα1

... S_α_Hl







, αj ={j− k_l−1

2 , . . . , j+k_l−1

2 } (4.59)

13. Nous considérons un biais nul

S_α_j, S_β_i sont des matrices de permutation partielle (Définition 18, annexe B.1) et∗ le produit de Khatri-Rao (cf Définition 16, annexe B.1).

Démonstration. Voir annexe B.3.2.

On en déduit :

Proposition 3. Le gradient vectorisé d’une couche de convolution en fonction du gradient de la couche précédente est donné par

V ec ∂φ^c_l

∂ε_k

= Ω_lV ec ∂φl−1

∂ε_k

(4.60) Démonstration. On utilise le fait que pour toute matriceAfonction d’un réelx:

V ec dA dx

= dV ec(A) dx

Couche ReLU

On note parHla fonction de Heaviside¹⁴. Par définition, on a

φ^relu,ij_l = max(0, φ^c,ij_l ) (4.61)

Proposition 4. Le gradient vectorisé d’une couche ReLU en fonction du gradient de la couche précédente est donné par

V ec ∂φ^relu_l

∂εk

=H_lV ec ∂φ^c_l

∂εk

(4.62) oùest le produit de Hadamard et avec

H_l=^hHφ^c,11_l . . .Hφ^c,H_l ^l^W^lⁱ^T (4.63) Démonstration. Voir annexe B.3.3.

14. H:R7→ {0,1}qui vaut1pour les valeurs positives et0ailleurs.

Couche LNR

Soient n_l > 0 la taille des régions pour la normalisation et α_l, β_l > 0 deux paramètres. La couche LNR est définie par

φ^lnr,ij_l = φ^relu,ij_l

d^β_ij^l (4.64)

avec le dénominateur :

d_ij = 1 +α_l nl

i+^nl₂⁻¹

p=i−^nl₂⁻¹

j+^nl₂⁻¹

r=j−^nl₂⁻¹

φ^relu,pr_l ² (4.65)

Proposition 5. De manière similaire à la couche précédente, le gradient de la couche LNR a pour expression

V ec ∂φ^lnr_l

∂ε_k

= ∂V ecφ^lnr_l

∂V ecφ^relu_l

∂ε_k (4.66)

avec

∂V ecφ^lnr_l

∂V ecφ^relu_l =diagK_lnr^β^l−2α_l nl

β_ldiagV ecφ^relu_l K_lnr^β^l⁺¹

I_W_l_H_l⊗V ecφ^relu_l ^T

(Λ_β∗Λ_α)

=Ll

(4.67)

K_lnr(φ^relu_l ) =







1 d11

...

1 d_WlHl







∈R^W^l^H^l (4.68)

Λ_β =







S_β^lnr

TS_β^lnr .. 1

. S_β^lnr

TS_β^lnr







, Λ_α=







S_α^lnr

TS_α^lnr .. 1

. S_α^lnr

TS_α^lnr







(4.69)

Démonstration. Voir annexe B.3.4.

Nous avons donc maintenant l’expression recherchée :

∂V ec(φ_l)

∂_k =L_l Ω_l∂V ec(φl−1)

∂_k H_l

(4.70)

Remarque : Les matricesH_l, L_lsont des fonctions deφ_l−1 et donc deφ₀. Expression du gradient deφ_lfonction deφ₀

L’équation 4.70 nous donne une expression du gradient de φ_l en fonction du gradient de la couche précédenteφl−1. Cependant, elle ne permet pas de remonter jusqu’au gradient de la couche d’entrée φ₀. Nous introduisons un nouvel opérateur et réexprimons 4.70 de façon à pouvoir remonter en cascade au gradient initial.

Définition 12. SoientA=







a^T₁ ... a^T_n







∈Mn,m etx∈R^m. On notele produit entreAetxdéfini par

Ax=A1_n⊗x^T=







a₁^T x^T ... a_n^T x^T







(4.71)

avec1_n ∈Rⁿun vecteur de1.

Théorème 2. SoientA∈M_n,m etx, y∈R^m. Alors

A(xy) = (Ay)x= (Ax)y (4.72) Démonstration. La propriété est immédiate en développant les expressions de chaque côté du signe égal. La seconde égalité est une conséquence directe de la commutativité du produit de Hadamard.

Théorème 3. Soitu∈Rⁿ. On a

diag(u) =I_nu (4.73)

L’application du théorème 2 à (4.70) nous donne

∂V ec(φ_l)

∂ε_k = (L_lH_l) Ω_l∂V ec(φ_l−1)

∂ε_k

= ˆΩ_l∂V ec(φl−1)

∂ε_k

(4.74)

D’où l’on déduit par itération

∂V ec(φ_l)

∂ε_k =

i=1

Ωˆ_l−i+1

!∂V ec(φ₀)

∂ε_k (4.75)

En posantA_l =^Q^l_i=1Ωˆl−i+1

etM =^hM₁ M₂ M₃ M₄ⁱon obtient l’expression finale de la jacobienne

∂V ec(φ_l)

∂ε = ^hA_lM₁∇Iˆ . . . A_lM₄∇Iˆ ⁱ (4.76)

= AlM( ˆ∇I⊗I₄) (4.77)

Application

Une première application de cette formalisation va nous permettre, en ajoutant des couches ap-propriées au réseau, de directement calculer le plan tangent courant^{∂V ec(φ}_∂ε ^l⁾au descripteurV ec(φ_l). Nous ignorons pour l’instant les couches LNR. En reprenant l’équation (4.74) avecL_l =I_H_l_W_l, on obtient

∂V ec(φ_l)

∂ε_k = (I_H_l_W_lH_l(φl−1)) Ω_l∂V ec(φl−1)

∂ε_k (4.78)

= diag(H_l(φ_l−1))Ω_l∂V ec(φl−1)

∂ε_k (4.79)

On doit cependant également prendre en compte en pratique le pooling P qui consiste dans la plupart des réseaux à conserver le maximum sur une région autour d’un point

∀x, P(x) = max

i,j φ^ij(x) (4.80)

On a alors ses dérivées

∂P

∂ε_k(φ) = ∂φⁱ^∗^j^∗

∂ε_k aveci^∗, j^∗ =argmax

i,j φ^ij (4.81)

Finalement, on passe du plan tangent à la couchel−1à la couchelpar

∂V ec(φ_l)

∂εk

= ∂P

∂εk

diag(H_l(φl−1))Ω_l∂V ec(φl−1)

∂εk

(4.82) Comme on le verra par la suite, ceci peut se calculer directement dans le réseau de neurones en

rajoutant certaines couches. Maintenant il reste à calculer la jacobienne initiale ^{∂V ec(φ}_∂ε ⁰⁾. Partons de l’équation (4.47). Sans perte de généralité, on considère que la position courante représentée par ε₀ est l’origine, c’est à dire queε₀ = ^h0 0 0 0ⁱ^T et par conséquencex^ε_ij = x_ij^I (autrement dit, la transformation de similarité considérée ici est relative à la position précédente et non exprimée par rapport au repère global de l’image). On a alors

Γ_0,ε₀(x_ij^ε) = x^ε_ij =x_ij^I (4.83)

Γ_1,ε₀(x_ij^ε) = ^h−j i 0ⁱ^T (4.84)

Γ_2,ε₀(x_ij^ε) = ^h1 0 0ⁱ^T (4.85) Γ_3,ε₀(x_ij^ε) = ^h0 1 0ⁱ^T (4.86) Finalement on obtient donc

∂φ^ij₀

∂ε =







∂c

∂i(x^I_ij)i+^∂c_∂j(x^I_ij)j

∂c

∂j(x^I_ij)i− ^∂c_∂i(x^I_ij)j

∂c

∂i(x^I_ij)

∂c

∂j(x^I_ij)







(4.87)

Le plan tangent nécessite donc seulement le calcul du gradient spatial de l’image à la position (échelle et rotation comprises) actuelle.

Voyons maintenant son implémentation pratique. Nous utilisons la bibliothèque Caffe [JSD⁺14]

mais le principe est adaptable de manière générale à d’autres frameworks. On rappelle qu’une couche est définie par un tenseur 3DD×H×W (profondeur, hauteur, largeur). Dans Caffe, ce sont en fait des tenseurs 4DN×D×H×W avec le premier axe correspondant au batch. En effet, il est plus efficace de traiter plusieurs images d’un coup que de répéter le traitement pour chaque image.

La figure 4.23 présente un schéma des couches nécessaires pour le calcul de la jacobienne initiale.

On part de l’image d’entrée qui est une couche de dimension1×3×H×W. Le gradient spatial

1 X 3 x H x W

3 X 1 x H x W 3 X 2 x H x W 3 X 4 x H x W 4 X 3 x H x W

Reshape Gradient spatial Reshape

(Filtre de Sobel) Jacobienne

Figure 4.23 – Schéma des couches à ajouter à un CNN afin de calculer le plan tangent initial

de l’image va être calculé indépendamment pour chaque canal (la profondeur, ici, correspond aux couleurs). L’astuce consiste à considérer chaque canal comme une donnée et de les traiter en bloc comme un batch. Autrement dit, il faut permuter l’axe correspondant au batch et aux canaux d’où l’utilisation d’une coucheReshape, qui comme son nom l’indique, permet de permuter les données.

On obtient alors en sortie un tenseur3×1×H×W. Celui-ci est envoyée ensuite dans une couche qui va calculer le gradient spatial de l’image à partir d’un filtre de Sobel (couche de convolution dont on a fixé le noyau pour être celui de Sobel). On a deux filtres (dérivée horizontale et verticale) d’où une sortie de dimension3×2×H×W. La jacobienne ^{∂V ec(φ}_∂ε ⁰⁾ est ensuite calculée à partir des équations (4.87) où chaque canal va correspondre à la dérivée par rapport à un paramètre de similarité. La sortie obtenue a donc une profondeur égale à4. Enfin, pour pouvoir propager cette jacobienne dans la suite du réseau, il faut repasser les canaux de couleurs (actuellement en tant que batch) en tant qu’axe de profondeur. C’est pourquoi nous réutilisons une seconde coucheReshape pour effectuer l’opération inverse de la première transformation.

Le réseau CNN original est ensuite modifié selon la figure 4.24.

Figure 4.24 – Adaptation des couches de convolutions pour le calcul de la jacobienne du descripteur à la couche l

Chaque couche est constituée de deux parties :

− La première est exactement celle du réseau original, à savoir l’enchaînement des couches conv+ReLU+poolcalculant le descripteurφl(en gris dans la figure 4.24)

− La seconde s’occupe de calculer la jacobienne deφ_lsuivant l’équation (4.82). Elle prend en entrée la jacobienne de la couche précédente ^∂φ_∂ε^l−1 qui passe à travers la même couche de convolution. Les sorties de la couche conv pour φ_l et ^∂φ_∂ε^l−1 sont ensuite passées en entrée de la couche Heaviside. La dernière couchepool dérivéimplémente l’équation (4.81) : elle nécessite en entrée un masque indiquant les indexi^∗, j^∗correspondant aux maximum locaux de φl, la sortie de la couche Heavisideainsi que les dimensions (hauteur et largeur) de la sortie.

Il est également possible d’obtenir la jacobienne, autrement dit l’espace tangent au descripteur, de manière dense en utilisant la méthode FCN.

Opérateur de K-dérivation

On définit ici l’opérateur de K-dérivation (ou dérivation de Kronecker) [Ter03] [DB15]

Définition 13. Soitf :Rⁿ →R^mtelle que

∀x= [x₁. . . xn]^T ∈Rⁿ, f(x) = [f₁(x). . . fm(x)]^T L’opérateur différentiel est noté D_x = ^h_∂x^∂

1 . . ._∂x^∂

. L’opérateur de K-dérivation noté D_x^⊗ est défini par

D^⊗_xf(x) =f(x)⊗D_x =V ecJ_f^T(x)∈M_nm,1 (4.88) avec Jf =^h_∂x^∂fⁱ

ila matrice jacobienne def. En utilisant la notation (B.4), la dérivation à l’ordre k est définie par

D_x^⊗kf =D^⊗_x D_x^⊗k−1f∈M_n^k_m,1 (4.89) Quelques nouvelles propriétés de cet opérateur et leur démonstration sont données en annexe B.2. L’application principale de la K-dérivation est de permettre une expression de série de Taylor multivariée [DB15] similaire au cas univarié

Théorème 4. Soientf :Rⁿ →R^metx₀ ∈Rⁿ. La série de Taylor def au pointx₀est donnée par

∀x∈Rⁿ, f(x) =

+∞

i=0

1 i!

D_x^⊗if(x0)^T (x−x0)^⊗i (4.90)

On obtient donc une approximation du premier ordre enε₀ à partir de l’expression (4.76) V ec(φl) (ε) = V ec(φl) (ε₀) +D^⊗_εV ec(φl) (ε₀)^T (ε−ε₀) (4.91)

= V ec(φ_l) (ε₀) + V ec ∂V ec(φ_l)

∂ε (ε₀)

T!!^T

(ε−ε₀) (4.92)

= V ec(φ_l) (ε₀) +

V ec

∇Iˆ ^T(ε₀)M^T(ε₀)A^T_l

(ε−ε₀) (4.93)

= V ec(φ_l) (ε₀) +

A_l⊗∇Iˆ ^T ⊗I₄

V ecM^T

(ε−ε₀) (4.94)

= V ec(φ_l) (ε₀) +

V ecM^T^T A^T_l ⊗∇Iˆ ⊗I₄

(ε−ε₀) (4.95)

Les approximations d’ordres supérieures sont également calculables à partir de la règle de dé-rivation en chaîne et de la mise à l’échelle présentées et démontrées en annexe B.2.

Discussion : La formalisation proposée ici a permis d’obtenir des expressions matricielles concises en évitant la complexité engendrée par l’écriture tensorielle. On a notamment montré que la jacobienne du descripteur à la couchel peut se factoriser sous la formeA_l(φ₀)M(ε)∇I(φ₀,ε). Bien que les expressions obtenues soient difficilement exploitables en pratique dans leur forme ac-tuelle, elles sont un point de départ pour de futurs développements. La première application de cette formalisation a permis de modifier un CNN afin qu’il calcule également directement la jacobienne.

L’idée derrière ceci est de séparer les variations du descripteur dues à un changement non rigide d’apparence∆φ^{N R}et celles dues à une transformation de similarité∆φ^SIM2. La figure 4.25 illustre ce point.

Figure 4.25 – Décomposition de la variation d’un descripteur

Dans le document DE L’UNIVERSITE DE MONTPELLIER DE L’UNIVERSITE DE MONTPELLIER (Page 157-168)