• Aucun résultat trouvé

multi-tâche et multi-domaine

5.4.2 Détails des bases de données

Pour nos expérimentations nous avons utilisé trois bases de données différentes.

La base de données KITTI possède de nombreuses images extraites de vidéos acquises à l’aide d’un véhicule circulant dans les rues de la ville de Karlsruhe en Allemagne.

(a)Schéma du réseau utilisé pour nos expérimen-tations

name kernel size output size

Input input - 3 × 46 × 46 batch-norm-0 - 3 × 46 × 46 Couche 1 conv-1 7 × 7 16 × 40 × 40 relu-1 - 16 × 40 × 40 max-pooling-1 2 × 2 16 × 20 × 20 batch-norm-1 - 16 × 20 × 20 Couche 2 conv-2 7 × 7 64 × 14 × 14 relu-2 - 64 × 14 × 14 max-pooling-2 2 × 2 64 × 7 × 7 batch-norm-2 - 64 × 7 × 7 Couche 3 conv-3 7 × 7 512 × 1 × 1 relu-3 - 512 × 1 × 1 batch-norm-3 - 512 × 1 × 1 Couche 4 dropout-4 0.3 512 fully-connected-4 - 1024 relu-4 - 1024

Output fully-connected #labels

(b)Détails des opérateurs

Fig. 5.5.: Schéma et détails du réseau de neurones convolutif utilisé pour nos expérimenta-tions.

De nombreux capteurs ont été utilisés et permettent d’avoir des informations variées, mais aucune annotation pour la tâche de segmentation sémantique n’a été fournie. Heureusement, plusieurs équipes de recherches ont annoté des sous-parties de cette base d’images. Au total, 736 images annotées étaient disponibles à l’époque de nos travaux (d’autres images ont depuis été rajoutées). Nous avons séparé ces images en ensembles d’entrainement, de validation et de test. Nous avons utilisé les mêmes divisions que les auteurs quand ces derniers ont donné cette information, sinon nous avons séparé de manière conventionnelle les données avec un ratio d’environ 70% pour les ensembles d’entrainement et de validation et 30% pour l’ensemble de test.

Les différents sous-ensembles ayant été annotés par différents groupes, les ensembles d’étiquettes utilisés diffèrent d’un sous-ensemble à l’autre. Cette caractéristique de la base de données KITTI fait son originalité et la rend extrêmement bien adaptée à

He et al. Road Building Sky Tree Sidewalk Car Pedestrian Bicyclist Veg. Misc Kundu et al. Road Building Sky Veg. Sidewalk Car Pedestrian Cyclist Pole Sign Fence

Ladicky et al. Road Building Sky Tree Sidewalk Car Pedestrian Bike Column Sign Fence Grass Ros et al. Road Building Sky Veg. Sidewalk Car Pedestrian Cyclist Pole Sign Fence Sengupta et al. Road Building Sky Veg. Pavement Car Pedestrian Poles Signage Fence

Xu et al.Ground Infras. Sky Veg. Movable

Zhang et al. Road Building Sky Veg. Sidewalk Car Pedestrian Cyclist Signage Fence

Fig. 5.6.: Les 68 étiquettes utilisées par les différentes équipes pour annoter les sous-parties de la base de données KITTI. Les couleurs correspondent aux couleurs utilisées par les auteurs pour leurs illustrations.

Data Train Val Test Total

He [HU13] 32 7 12 51 Kundu [Kun+14] 28 7 15 50 Ladicky [Lad+14] 24 6 30 60 Ros [Ros+15] 80 20 46 146 Sengupta [Sen+13] 36 9 25 70 Xu [Xu+13] 56 14 37 107 Zhang [Zha+15] 112 28 112 252 Total 368 91 277 736

Fig. 5.7.: Nombres d’images composant les différentes sous-parties ainsi que leur affectation dans les ensembles d’entraînement, de validation et de test.

notre étude. Les différentes étiquettes utilisées par les auteurs sont résumées dans la figure 5.6. A noter que l’équipe de Xu et al. [Xu+13] fournit une hiérarchie d’éti-quettes très détaillée, mais nous n’utilisons que le plus haut niveau de la hiérarchie afin d’obtenir un ensemble d’étiquettes plus compatible (en termes de granularité) avec les aux autres ensembles.

La base de données KITTI contient plus de 40 mille images extraites de vidéos (dont la taille totale dépasse les 180 GB) mais nous ne pouvons utiliser que les données annotées, soit 736 images (le détail du nombre d’images par sous-partie est donné dans le tableau 5.7).

Le nombre d’images est faible mais ces dernières sont annotées de manière dense. Par conséquent, chaque pixel peut être considéré comme un échantillon d’entrainement. Ainsi, nous pouvons extraire environ 390 mille patchs de chaque images (dépendant de sa taille) pour un total de plus de 280 millions d’exemples d’entraînement utilisables lors de l’apprentissage du réseau. Bien sûr, il est important de noter que les différents patchs sont souvent très proches les uns des autres et qu’il existe donc une très grande corrélation entre certains exemples d’entrainement.

De plus, comme mentionné précédemment, les étiquettes utilisées par les différentes équipes ne sont pas toujours consistantes. La figure 5.6 montre les différences entre les étiquettes. On peut voir, par exemple, que l’équipe de Ladicky et al. [Lad+14] a séparé la classe Arbre de la classe Herbe. Ces deux classes pourraient correspondre à la classe Végétation de l’équipe de Xu et al. [Xu+13], mais ces derniers ont aussi une classe Terrain. La classe Herbe peut-elle aussi faire partie de la classe Terrain ? On peut aussi pointer que l’équipe de He et al. [HU13] n’utilise pas les étiquettes

Poteaux, Panneaux et Barrières utilisées par plusieurs autres équipes. On pourrait

donc considérer que ces dernières font partie de la classe Bâtiment de He et al., mais dans ce cas cette dernière n’est plus cohérente avec les étiquettes Bâtiment des autres équipes. Finalement, certains ensembles d’étiquettes possèdent une étiquette

Vélo quand d’autres l’étiquette Cycliste. Ces deux étiquettes pourraient présenter des

points communs, mais dans un cas les équipes s’intéressent à une personne et son vélo comme une unique entité quand d’autres se concentrent uniquement sur le vélo. Ces incompatibilités d’étiquettes ne permettent donc pas de créer un ensemble cohérent pour un apprentissage classique et fait donc de la base de données KITTI un parfait candidat pour notre fonction de perte sélective.

En plus de la base de données KITTI, qui se prête très bien à notre approche, nous avons aussi utilisé deux autres bases de données conçues pour la segmentation de scènes : la base de données Stanford Background [Gou+09] et la base de données SiftFlow [Liu+11]. Comme nous l’avons vue dans la partie 4.1.3 la base de données Stanford Background contient 715 images de scènes extérieures avec une résolution de 320 × 240 pixels. Nous avons suivi les recommandations d’utilisation de la base de données et avons séparé aléatoirement les images pour en conserver 80% dans l’ensemble d’entrainement/validation et 20% dans l’ensemble de tests. L’ensemble d’étiquettes possède 9 classes : ciel, arbre, route, herbe, eau, bâtiment, montagne,

objets de premier plan et inconnu. La résolution et le nombre d’images nous permet

d’extraire environ 40 millions de patchs d’entrainement. La base de données SiftFlow contient 2688 images d’une résolution de 256 × 256 pixels permettant l’utilisation de plus de 160 millions de patchs d’entrainement. Une séparation de 2488 images d’entrainement/validation et de 200 images de tests est donnée par les auteurs. Les images de la base ont été annotées manuellement dans un ensemble de 33 classes sémantiques.