Convolution 1x1 – Couche compl`etement convolutionnelle

Si réduire le nombre de neurones dans les couches convolutionnelles a permis de baisser le nombre de paramètres libres de notre réseau, on remarque que la majeure partie de ces paramètres sont présents sur les couches complètement connectées. C’est le cas de 58 millions sur 61 pour le réseau Alexnet-MultiBox. Ce nombre important de paramètres à ce niveau du réseau est causé, d’une part, par le fait qu’il soit nécessaire d’avoir, comme entrée, des caractéristiques permettant de retranscrire l’image entière et, notamment, la position et la nature de tous les objets s’y trouvant. On utilise donc toutes les caractéristiques obtenues en sortie de la dernière couche

Fig. 5.1 – Illustration des champs réceptifs relatifs aux différentes couches de notre réseau. Les diffé-rentes positions des champs réceptifs, séparées par lesstrides, sont illustrées en pointillés.

Fig. 5.2 – Détail de champs réceptifs correspondant aux neurones des différentes couches convolution-nelles (1ère : rouge, 2ème : vert, 3ème : bleu, 4ème : magenta et 5ème jaune). On observe que certains objets textuels sont plus larges que les champs réceptifs convolutionnels de nos neurones de sortie.

convolutionnelle. Ce nombre important de paramètres est également causé par le fait qu’on ait comme sortie de cette (ou de ces) couche complètement connectée l’ensemble des objets hypothèses pour cette image. Ce nombre d’objets hypothèses doit être supérieur au nombre maximal d’objets pouvant être présents dans la même image. MultiBox [Erhan et al., 2014] utilise 100 ou 200 objets hypothèses pour des tâches avec un nombre maximal d’objets à détecter de 56 (cf. Tableau5.1).

Notre tâche a la particularité d’avoir un nombre moyen d’objets par page beaucoup plus élevé ce qui se traduit par un nombre maximal d’objets pouvant être présents dans une même page de 567. Augmenter le nombre de sorties du réseau en conséquence entraˆıne une augmentation mécanique du nombre de paramètres libres sur la dernière couche complètement connectée ; ce qui est en contradiction avec notre contrainte de travailler avec de petits jeux de données lors de l’apprentissage.

Dans le but de résoudre ce problème, l’une de nos principales contributions a été de rendre les prédictions de notre réseau locales et de remplacer cette (ou ces) couche complètement connectée par une couche localement connectée. Seules les caractéristiques relatives à une localisation de l’image, dont les champs réceptifs sont visibles en jaune, en Figure 5.1, vont être utilisées pour prédire la présence d’objets.

Notons que cette couche localement connect´ee est, au final, assimilable `a une nouvelle couche convolutionnelle ayant pour taille de filtres 1×1.

La prédiction devient locale, et pour chaque position i ∈ {0, ..., I} , j ∈ {0, ..., J} de notre carte de caractéristiques en sortie de la dernière couche convolutionnelle, on va prédire K objets (définis chacun par P = 5 valeurs). Donc le nombre total B d’objets hypothèses prédits par le système pour chaque page est égal à I ×J ×K. I, J et K sont définis par la taille de l’image d’entrée (598×838) et par les tailles des filtres etstrides du réseau détaillés dans le tableau5.2.

Dans la pratique,I = 2,J = 33 etK = 20 donc le réseau prédiraB = 1320 objets hypothèses par image ce qui est nettement supérieur au nombre d’objets pouvant être présents dans une page.

Une conséquence majeure de ce choix est que les objets peuvent être plus grands que les champs réceptifs associés à nos sorties locales, comme illustré en Figure5.2. Cela rend nécessaires quelques modifications par rapport aux prédictions directes des coordonnées décrites dans le chapitre précédent et utilisées par MultiBox.

On va prédire les coordonnées du coin en bas à gauche de nos objets dans le référentiel des champs réceptifs. La largeur et la hauteur de nos objets seront quant à eux prédits en étant normalisés par rapport à la largeur de la page.

En se rappelant des B objets Ob prédits par MultiBox pour une image Im et définis dans l’équation 4.1 :

Ob={l0,b, l1,b,l2,b, l3,b, cb} (5.1)

{O1, ...,OB}=F(Im) (5.2)

Et en définissant W la largeur et H la hauteur de la page, et wethles largeur et hauteur des champs réceptifs finaux, on va prédire les objetsO⁰⁰_i,j,k correspondants avecietj pour la position dans la carte de caractéristiques etk ∈ {0, ..., K} représentant l’indice de l’objet à cette position.

O⁰⁰_i,j,k={l_0,i,j,k⁰⁰ , l_1,i,j,k⁰⁰ ,l⁰⁰_2,i,j,k, l⁰⁰_3,i,j,k, ci,j,ks} (5.3) Avec :

l⁰⁰_0,i,j,k = (l0,i,j,k−δx(i))×W/w (5.4)

l_1,i,j,k⁰⁰ = (l2,i,j,k−δy(j))×H/h (5.5)

l⁰⁰_2,i,j,k =l1,i,j,k−l0,i,j,k (5.6)

l⁰⁰_3,i,j,k =l_3,i,j,k−l_2,i,j,k (5.7)

Où lesδ_x(i)) etδ_y(j) correspondent à la position du champs réceptif correspondant aux sorties i,j. Soit Sx et Sy les décalages verticaux et horizontaux entre deux champs réceptifs successifs (eux mêmes définis par les strides des couches convolutionnelles).

On a :

δx(i) = i×Sx/W (5.8)

δy(j) =j ×Sy/H (5.9)

Comme pour YOLO [Redmon et al., 2016] dans l’équation 4.10, on a aussi la particularité de pouvoir revenir aux prédictions directes des coordonnées des objets avec une transformation linéaire G⁰. La différence étant que les prédictions sont désormais locales.

F⁰⁰(Im) =G⁰(F(Im)) (5.10)

La fonction de coût C, quant à elle, reste similaire à celle décrite pour MultiBox en Section 4.2 et dans les équations4.11, 4.13 et 4.14 :

C=α 1

De même pour l’appariement où, comme pour MultiBox en Section4.3.2, on associe les boites références aux boites hypothèses de manière globale.

L’algorithme Hongrois [Munkres, 1957] est utilisé pour minimiser la fonction de coût vis à vis de la matrice d’appariementX :

En s’assurant que (comme le nombre d’objets référencesN est plus petit que le nombre d’objets hypothèses B) :

Contrairement à ce qui est présenté dans MultiBox [Erhan et al., 2014], nous n’avons expé-rimentalement pas obtenu d’amélioration de la vitesse de convergence ou des performances en utilisant les ancres détaillées en Section 4.3.2. Nous avons donc choisi d’effectuer cet associa-tion entre objets hypothèses et objets références en utilisant directement la posiassocia-tion des objets hypothèses dans l’équation5.12.

Par contre, nous avons observé qu’utiliser un paramètreαmatch, pondérant le coût des erreurs de position vis à vis des erreurs de confiance, plus grand lors de l’association des boites références aux boites hypothèses que le paramètre αutilisé dans notre fonction de coût, et donc dans notre optimisation à l’aide de rétro-propagation des gradients, permettait de faciliter l’entraˆınement et d’obtenir de meilleures performances. Cela est dû au fait que cela aide, en particulier au début de l’entraˆınement, notre système à associer des boites hypothèses plus diverses. Utiliser unαmatchplus grand a donc un résultat similaire à celui d’utiliser des ancres dans MultiBox [Erhan et al., 2014].

Dernier changement au niveau de l’optimisation, nous avons utilisé RmsProp [Tieleman and Hinton, 2012] et une taille de minibatches de 8. Avoir des minibatches plus petits (que les 64 utilisés par MultiBox) est en accord avec la taille de notre base de données plus restreinte.

Dans le document The DART-Europe E-theses Portal (Page 69-74)