Configurations et résultats - multi-tâche et multi-domaine

multi-tâche et multi-domaine

5.5.2 Configurations et résultats

Inspiré par les travaux de Neverova et al. [Nev+15a], nous avons utilisé un réseau de neurones convolutif à trois couches de convolution, suivies par trois couches entièrement connectées avec 1200 unités cachées chacune. Un opérateur de dropout avec un facteur d’annulation de 10 % est ajouté à la suite des couches entièrement connectées. Le réseau est entrainé par descente de gradient avec un mini-batch de 100 exemples, composé à chaque fois de 50 images provenant de la base NYU et 50 images de la base ICVL. L’apprentissage joint avec partage du contexte correspond à une couche entièrement connectée supplémentaire, ajoutée à la sortie du réseau et composée de 300 unités cachées.

Les résultats, donnés dans le tableau 5.5, montrent que la fonction de perte sélective est aussi utile pour les problèmes de régressions. Sans partage de contexte, la base la plus complexe (NYU) bénéficie de plus de données d’entrainement ce qui lui permet d’améliorer ses résultats. En ajoutant le partage de contexte, les deux bases bénéficient des améliorations (puisque les positions des jointures sont extrêmement corrélées) réduisant davantage les erreurs faites par le réseau.

Par contre, l’ajout du reversement de gradient n’aide pas. Cela est dû à la nature très similaire des images d’entrées (image de profondeur) qui permettent au réseau d’apprendre des caractéristiques identiques pour les deux bases de données.

Le tableau 5.6 compare les résultats que nous obtenons à ceux de l’état de l’art. Nous pouvons constater que l’erreur 3D de notre méthode est compétitive et donne des performances proches de la méthode [Nev+15a] qui donne les meilleurs résultats, alors que cette dernière utilise des données synthétiques afin d’augmenter la taille de l’ensemble d’entraînement. Les bons résultats de notre méthode s’expliquent facilement avec l’augmentation du nombre de données d’entrainement.

Method NYU (3D, mm) ICVL (3D, mm)

Baseline 17.76 9.54

Apprentissage joint 17.11 9.39

AJPC 16.80 9.16

Neverova et al. [Nev+15a] 14.94

-DeepPrior, Oberweger et al. [Obe+15] 19.8^† 9.6^†

Tompson et al. [Tom+14] 21.0^†?

-Multi-Scale, Oberweger et al. [Obe+15] 27.5^† 11.7^†

Deep, Oberweger et al. [Obe+15] 30.5^† 11.8^†

Shallow, Oberweger et al. [Obe+15] 34.5^† 11.7^†

Tang et al. [Tan+13] - 12.6^†?

Tab. 5.6.: Comparaison de nos résultats (en haut) sur la tâche d’estimation de pose de la main avec les méthodes de l’état de l’art sur les bases de données NYU et ICVL. Les valeurs marquées avec le symbole † sont estimées par rapport à une courbe de donnée, car les auteurs de fournissent pas les valeurs numériques. Le symbole

?indique que la valeur donnée est celle reportée dans le papier [Obe+15].

La figure 5.10 illustre quelques résultats obtenus par notre méthode sur des images provenant des deux bases de données. On peut distinguer que les jointures utilisées ont une cardinalité et des positions différentes.

5.6 Conclusion sur l’étude des corrélations entre

étiquettes

Avec notre stratégie d’apprentissage joint avec partage du contexte, et avec nos études sur la segmentation sémantique et l’estimation de pose de la main, nous avons démontré qu’il est utile de tirer parti des corrélations existantes entre les différents ensembles d’étiquettes.

Nous pouvons aller encore plus loin pour la tâche de classification puisque nous pouvons récupérer les corrélations apprises par le réseau. Pour cela, nous avons construit une matrice de corrélation contenant la totalité des sous-parties de la base de données KITTI. Les lignes de la matrice (montrée dans la figure 5.11) représentent les étiquettes cibles tandis que les colonnes de la matrice correspondent aux prédictions (probabilités) produites par le réseau de neurone. La diagonale de la matrice correspond donc aux étiquettes cibles correctement annotées. Les valeurs élevées, qui ne sont pas sur la diagonale, sont des probabilités importantes prédites par le réseau et qui sont, par conséquent, corrélées avec la classe cible (classe de la ligne correspondante). Chaque bloc de la matrice correspond à un ensemble d’étiquettes différents. Or on peut noter que dans chaque bloc une diagonale est visible. Cela veut dire que les étiquettes de ces diagonales sont toutes corrélées avec les étiquettes de la diagonale principale. Plus concrètement, les cinq premières

Fig. 5.11.: Matrice de corrélation empirique des étiquettes entre les sous-parties de la base de données KITTI. Chaque ligne correspond à la moyenne des prédictions produites par le réseau pour une étiquette cible donnée. Les 68 lignes/colonnes correspondent aux 68 étiquettes détaillées dans la figure 5.6 (avec les couleurs correspondantes). Une cellule plus foncée indique une probabilité plus élevée. Les cellules qui ne sont pas sur la diagonale correspondent à des classes hau-tement corrélées avec la classe cible (puisque le réseau leur prédit une grande probabilité).

étiquettes de chacun des ensembles d’étiquettes sont toutes corrélées. Ce résultat est attendu puisque les cinq premières étiquettes ont toutes la même sémantique, à savoir route, bâtiments, ciel, végétation et voiture. Une seconde observation est que la matrice n’est pas symétrique. C’est aussi un résultat attendu puisqu’il arrive que plusieurs étiquettes d’un ensemble soient inclus dans une étiquette définie par un autre. Par exemple, les étiquettes Bâtiment, Poteaux, Panneaux et Barrière de l’ensemble d’étiquettes de Sengupta et al. sont toutes hautement corrélées avec l’étiquette Infrastructure de l’ensemble de Xu et al., indiquant que ces dernières sont probablement incluses dans l’étiquette Infrastructures de Xu et al. Par contre, l’étiquette Infrastructure de Xu et al. est très corrélée à l’étiquette Bâtiment de Sengputa et al. Cela est encore une fois logique puisque le Bâtiment de Sengupta et

al. fait aussi partie de l’Infrastructure de Xu et al. et, étant beaucoup plus présent que

les autres étiquettes, la probabilité qu’un exemple annoté Infrastructure chez Xu et

al. appartiennent à l’étiquette Bâtiment de Sengupta et al. est plus élevée.

Cette matrice confirme les attentes discutées dans la partie 5.4.2. Elle montre que notre méthode peut aussi être utilisée afin de découvrir de manière automatique des corrélations entre différents ensembles d’étiquettes.

6

Dans le document Réseaux de neurones convolutifs pour la segmentation sémantique et l'apprentissage d'invariants de couleur (Page 131-134)