3.2 Applications développées
3.2.3 Segmentation sémantique
collaboration avec Fabio Gonzalez et Antoine Manzanera et dans le cadre de la thèse d’Islem Jebari et du projet PACOM (Gonzalez, 2010).
Les capacités de perception sémantique mentionnées en introduction de ce chapitre
doivent permettre de reconnaitre un grand nombre d’éléments d’apparence et de taille
très différentes. Détecter tous ces éléments individuellement peut s’avérer difficile et
il peut être intéressant de prendre en compte une information de contexte au sein de
l’image pour améliorer les performances (Galleguillos and Belongie, 2010).
FIGURE23.:
Exemple de résultats obtenus par la méthode de segmentation sémantique sur la
base de données « CamVid » (Brostow et al., 2008). Labels : Gris : Ciel, Rose :
route, Bleu : Trottoir, Rouge : Batiment, Violet : Véhicules
Dans cette optique, nous nous sommes intéressés à la labelisation sémantique de
scènes perçues depuis un véhicule dans un contexte urbain lors du séjour sabbatique
à l’ENSTA ParisTech de Fabio Gonzalez (Gonzalez, 2010). L’objectif est d’associer
un label (route, bâtiment, véhicule, piéton...) à chaque pixel de l’image. Nous avons
utilisé pour ces travaux le « Cambridge-driving Labeled Video Database (CamVid) »
(Brostow et al., 2008).
A cette occasion, nous avons implémenté une segmentation des images à base de
superpixels (Micusik and Kosecka, 2009), chaque superpixel étant représenté par un
descripteur SIFT et par sa couleur moyenne. Ce descripteur est ensuite quantifié au
travers d’un dictionnaire qui lui associe un « mot visuel ». A partir de ces mots visuels,
le label associé à chacun des superpixels est estimé par un modèle de Champs de
Markov prenant en compte à la fois l’apparence du superpixel, des informations sur
sa position géométrique dans l’image et les dépendances des labels entre superpixels
voisins. Ces différents termes sont modélisés sous forme d’une fonction d’énergie que
l’on cherche à minimiser :
E(L) =αE
app(L) +δE
geom(L) +βE
edge(L) +γE
prior(L), (3.1)
avec :
– E
app(L) =−∑
li∈VlogP(x
appi|l
i)
– E
geom(L) =−∑
li∈VlogP(x
geomi|l
i)
– E
edge(L) =−∑
(i, j)∈EdlogP(l
i,l
j)
– E
prior(L) =−∑
li∈VlogP(l
i)
où L= (l
1,...l
i. . .)est l’ensemble des labels des superpixels de l’image, x
iest le
superpixel i, x
appiest son apparence codée par son descripteur associé, x
geomisa
posi-tion dans l’image et V l’ensemble de ses superpixels voisins. E
appcorrespond ainsi à
la probabilité du label l
iconnaissant l’apparence du superpixel x
i, E
geomcorrespond à
la probabilité (modélisée par une gaussienne) du label l
iconnaissant sa position dans
l’image, E
edgecorrespond à la probabilité de trouver le label l
idans le voisinage du
label l
jet E
priorcorrespond à un a priori sur les probabilités des labels. Toutes ces
données sont apprises sur la base d’apprentissage CamVid qui a été annotée à la main.
Ce coût est maximisé grâce à l’algorithme Max-sum (Werner, 2007).
bicyclist building car pedestrian road sidewalk tree Average
MRF Appearance 9.8% 52.5% 37.7% 15.6% 84.5% 22.8% 39.4% 33.29%
MRF Geometric + Appear. 14.3% 55.4% 53.9% 34.50% 84.8% 55.1% 37.8% 43.09%
(Micusik and Kosecka, 2009) 15% 61.9% 72.4% 56.5% 89.6% 83.1% 60% 52.2%
FIGURE24.:
Précision pour quelques classes et précision moyenne obtenue pour notre
ap-proche avec et sans information géométrique comparées aux meilleurs résultats
de (Micusik and Kosecka, 2009).
Cette première approche relativement simple, notamment au niveau de
l’informa-tion géométrique utilisée, a donné des résultats prometteurs (Figures23et24). Nous
l’étendons actuellement dans le cadre de la cartographie sémantique multi-capteurs
(section2.2.2) à l’utilisation combinée de données télémétriques et visuelles pour la
labelisation sémantique en intérieur.
4
A P P R E N T I S S A G E
Après les robots utilitaires spécialisés, des robots ludiques tels que Nao
d’Aldebar-ran Robotics
1arrivent sur le marché. Ces modèles que l’on peut qualifier de «
com-pagnons » ont un rôle social et un intérêt essentiellement dans le cadre des
interac-tions qu’ils peuvent engager avec leurs utilisateurs. L’un des challenges importants
pour ces robots est alors de fournir des interactions riches et renouvelées afin
d’in-téresser leur propriétaire. A moyen terme, des versions plus évoluées de ces robots
devraient pouvoir améliorer la qualité de vie de personnes âgées ou dépendantes (
Ta-pus et al., 2007). Ils permettront à ces personnes de rester autonomes quelques années
supplémentaires en assurant une forme de surveillance et d’assistance pour des gestes
simples du quotidien.
Pour ces robots domestiques, l’aspect social, la capacité d’interaction avec les
hu-mains, est donc primordial (Chatila, 2008). Ceci se traduit d’un point de vue
méca-nique par une autonomie de déplacement, la capacité de saisir, de manipuler des objets
tout en garantissant la sécurité des utilisateurs, mais pose surtout des défis du point
de vue « cognitif ». Ainsi ces robots doivent intégrer des capacités de perception et
d’interprétation des situations largement supérieures à ce qui est possible aujourd’hui.
Ils doivent par exemple pouvoir détecter des objets, des visages, interpréter les
ex-pressions et les gestes de l’humain. D’une manière générale, ils se trouvent contraints
de « comprendre » les situations complexes caractéristiques de l’environnement
quoti-dien des humains. De plus ces capacités doivent être évolutives : ils doivent apprendre
à reconnaître de nouveaux objets, de nouvelles personnes, apprendre à jouer à un
nou-veaux jeux, raconter de nouvelles histoires. Dans ce contexte, doter ces robots de
capacités d’apprentissage est donc inévitable.
De très nombreux travaux de robotique, en particulier pour l’aspect perception,
re-posent d’ores et déjà sur des techniques d’apprentissage. Cependant, ces techniques
restent souvent lourdes à mettre en oeuvre et il reste beaucoup à faire pour rendre
cet apprentissage simple et intuitif pour les utilisateurs non spécialistes. Dans nos
travaux, nous avons donc utilisé différentes méthodes d’apprentissage incrémentales
qui sont bien adaptées à l’apprentissage en ligne, et nous avons cherché à rendre ces
méthodes simples à utiliser dans un cadre d’apprentissage interactif. En particulier,
dans le cadre de l’approche développementale de la robotique, nous cherchons à
dé-velopper des méthodes permettant d’apprendre des capacités de perception dans un
cadre d’interaction avec des humains.
4.1 T E C H N I Q U E S M I S E S E N O E U V R E
Dans les modèles que nous avons développé, nous avons eu besoin de méthodes
d’apprentissage incrémentales qui permettaient de mettre à jour les modèles
rapide-ment, notamment lors d’une interaction avec un humain. Nous n’avons pas développé
de méthodes nouvelles pour cela, mais avons utilisé plusieurs méthodes classiques
adaptées à ces problématiques.
Dans le document
Navigation, perception et apprentissage pour la robotique
(Page 39-43)