Segmentation de scène statique en objets - Du capteur à la sémantique : contribution à la modél

1.3 Contributions

2.1.1 Segmentation de scène statique en objets

La segmentation de scène constitue une première famille de méthodes locales, à temporalité nulle et à faible degré d’abstraction, c’est à dire proche des données capteurs brutes. Un exemple de méthode est celle d’Uckermann et al. [ÜHR13] qui propose de segmenter une scène en se basant sur un capteur RGBD (Kinect). Elle repose sur les deux étapes suivantes : une présegmentation de la scène en surfaces lisses puis un regroupement des surfaces correspondant à un même objet. La présegmentation est effectuée par un calcul de normale en chaque point puis par une détection des

bordures à partir du produit scalaire de ces normales. Une analyse en composants connectés est ensuite appliquée sur l’image binaire précédemment obtenue pour avoir l’ensemble des surfaces lisses de l’image. Pour le partitionnement des surfaces en objets, un graphe pondéré modélisant la probabilité qu’ont deux surfaces d’appartenir à un même objet est construit. Les poids associés à chaque lien de ce graphe sont calculés selon différentes heuristiques telles que la coplanarité des surfaces. La segmentation optimale est finalement obtenue par une coupe du graphe selon les liens dont les poids sont inférieurs à un certain seuil. Dans un second papier du même auteur [ÜEHR14], cette méthode est étendue en générant une hiérarchie de segmentation. Pour cela, ils séparent itéra- tivement le graphe non plus en coupant les liens selon un seuil fixé, mais avec une méthode de flot maximum/coupe minimum. Ils obtiennent alors un arbre binaire, avec chaque nœud correspondant à une segmentation à une certaine échelle. Par exemple, la figure 2.1d montre la segmentation d’une tasse en trois parties (extérieur, intérieur et anse).

(a) Image RGB original (b) Présegmentation (c) Segmentation finale (d) Segmentation en parties

Figure 2.1 – (a)(b)(c) Segmentation de scène basée sur l’hypothèse de surfaces lisses [ÜHR13] et (d) segmentation en parties [ÜEHR14]

D’autres approches de segmentation de scène non supervisées se basent sur une représentation intermédiaire d’une image se situant entre le pixel et la segmentation en objets : les superpixels [ASS+12] [WGB12] [FVS09] [VBM10] (supervoxels [PASW13] [SSPW14] [ABS14] [SPW15] dans le cas 3D). L’objectif est de remplacer la segmentation par pixel, qui ne tient pas compte du contexte global et qui est coûteuse à inférer, en une segmentation d’ensemble de pixels regrou- pés selon certains critères de similarité : couleur, position, normale à la surface tangente. Une des méthodes classiques pour effectuer la présegmentation d’une image en superpixels est nommée SLIC [ASS+12] (Simple Linear Iterative Clustering). Chaque pixel est représenté par un vecteur de dimension 5 (2 coordonnées spatiales et 3 coordonnées colorimétriques dans l’espace couleur Lab). La segmentation est initialisée en créant des centres de régions réparties uniformément sur l’image puis en appliquant un algorithme de K-means local, c’est à dire qu‘un pixel ne peut appartenir à une région que s’il se trouve dans un rayon fixe autour de son centre. Cette région de

2.1. REPRÉSENTATION GÉOMÉTRIQUE DE L’ENVIRONNEMENT

recherche est représentée à la figure 2.2a pour un pixel (point rouge) : seuls les centres (point vert) inclus dans cette région sont considérés.

Une adaptation de cette méthode aux capteurs RGB-D a été proposée par Weikersdorfer et

al. [WGB12]. Ils exploitent l’information de profondeur afin d’avoir des superpixels de taille pro-

portionnelle à la surface réelle correspondante, ceci afin d’obtenir une segmentation uniforme de la scène 3D observée. La segmentation de la scène est enfin obtenue après application d’une mé- thode de partitionnement spectral (Spectral Clustering) [SM00] sur le graphe dont les nœuds sont les superpixels.

Les supervoxels sont l’équivalent 3D des superpixels. Papon et al. [PASW13] ont proposé une méthode de sursegmentation d’un nuage de points 3D en supervoxels appelée VCCS (Voxel Cloud

Connectivity Segmentation). La méthode est similaire au cas 2D : l’espace 3D est discrétisé puis

un graphe de voisinage aux 26-ppv1est construit (deux voxels sont voisins s’ils partagent une face, une arête ou un sommet). Chaque point p est représenté par un vecteur F comprenant sa position, sa couleur dans l’espace Lab, mais également un vecteur f de description 3D FPFH (Fast Point

Feature Histograms) [RBB09] décrivant les propriétés (invariantes selon la pose) du modèle de la

surface locale au point :

F =hx y z L a b fTiT (2.1)

Asif et al [ABS14] proposent une approche similaire mais avec une définition différente du vecteur F de description des points 3D :

F =hx y z ∇ αi (2.2)

avec ∇ le gradient local moyen (moyenne des projections entre la normale au point et les normales alentours) et α l’orientation de la surface par rapport au point de vue courant. De la même façon que [WGB12] améliora SLIC en tenant compte de la densité décroissante des superpixels en fonction de la distance, Stein et al. [SSPW14] proposent une extension de VCCS dite DDVG (Depth Dependent

Voxel Grid) en utilisant un octree dont la taille des nœuds augmente en fonction de la distance.

Une fois cette présegmentation en supervoxels effectuée, il reste à les regrouper en entités de plus haut niveau que sont les "objets". Les expériences effectuées par Worgotter [WST15] et Tamo- siunaite [TSSW15] montrent que les humains définissent principalement le concept d’objet à partir de la convexité. Ainsi, les segmentations basées uniquement sur la couleur ne sont généralement pas capables de décomposer une scène selon des objets réels ou ayant un sens physique.

Les approches de Asif [ABS14] et Stein [SSPW14] utilisent l’information sur la convexité lo-

cale des surfaces. Le premier regroupe simplement les régions adjacentes convexes avec un traite- ment spécial pour gérer les ouvertures du type intérieur/extérieur d’une tasse. Le second développe une méthode dite LCCP (Locally Convex Connected Patches) qui se base sur un processus de ré- gion croissante : un supervoxel est choisi aléatoirement puis labellisé. Ce label se propage dans le graphe de voisinage des supervoxels selon les arêtes convexes2. Lorsque la propagation se termine, l’opération est répétée en sélectionnant aléatoirement un autre supervoxel ne possédant aucun label. L’avantage du processus de région croissante proposé par [SSPW14] par rapport à [ABS14] est d’éviter les segmentations erronées le long de concavités isolées.

Une extension de LCCP a été proposée par les mêmes auteurs [SPW15] dans le but de segmenter non pas une scène en objets mais un objet en parties. Cette méthode est dénommée CPC-LCCP (CPC pour Constrained Planer Cut). En effet, la méthode LCCP permet de regrouper des régions malgré des concavités isolées. Cela est une bonne propriété pour la séparation d’objets distincts mais désavantageux pour une segmentation en parties d’un objet comme illustré dans la figure 2.2c où l’on voit que l’épaule ne permet pas de séparer totalement le bras du torse. En effet, le dessus de l’épaule n’est pas concave. CPC-LCCP suit exactement la méthode LCCP à la différence que le graphe de voisinage peut être dorénavant coupé selon des arêtes convexes. Cette méthode est par nature sensible aux concavités des objets déformables, comme par exemple les plis d’un vêtement, qui causent de la sursegmentation.

Cette méthode peut être une bonne initialisation dans le cadre de modélisation cinématique d’objets articulés. C’est ce que nous allons voir dans la section suivante.

Dans le document Du capteur à la sémantique : contribution à la modélisation d'environnement pour la robotique autonome en interaction avec l'humain (Page 38-41)