4.7 Conclusion
5.1.1 M´ethode d’int´eraction
5.2 Segmentation par un gabarit unique . . . . 100
5.2.1 Arˆetes de voisinage . . . . 102
5.2.2 Arˆetes de liaisons . . . . 103
5.3 Segmentation avec un gabarit par parties . . . . 104
5.4 R´esultats . . . . 105
5.4.1 Optimisation du processus . . . . 105
5.4.2 Gabarit unique ou par parties ? . . . . 105
5.5 Ajout de l’information de luminance . . . . 106
5.5.1 Pr´esentation de la m´ethode . . . . 107
5.5.2 R´esultats . . . . 109
5.6 Fenˆetres de tailles quelconques . . . . 109
5.6.1 Segmentation de fenˆetres de tailles quelconques . . . . 111
5.6.2 Modes d’interactions . . . . 113
5.6.3 Encadrement . . . . 114
5.6.4 Marqueurs . . . . 115
5.6.5 Pointage de sous-parties . . . . 116
5.7 Conclusion . . . . 117
Pour obtenir une segmentation pr´ecise ou bien pour que l’utilisateur ait un contrˆole
plus important sur le r´esultat, il est int´eressant que l’utilisateur puisse avoir une
interaction avec la m´ethode qu’il utilise. Si cette interaction est pr´ejudiciable dans
certaines applications temps r´eel comme la vid´eo-surveillance ou l’assistance de conduite,
o`u l’on comprend ais´ement que l’utilisateur n’a pas le temps d’influencer le calcul,
elle est fortement recommand´ee pour tous les travaux de post-traitements. Cependant
l’interaction doit rester la plus mince possible pour minimiser le travail `a effectuer par
l’utilisateur. De plus, l’interaction doit bien s’int´egrer dans le principe de la m´ethode
pour que l’information donn´ee par l’utilisateur soit la plus profitable au temps de calcul
et `a la pr´ecision du r´esultat.
En opposition aux chapitres 3 et 4, nous avons d´evelopp´e une m´ethode favorisant
l’interaction avec l’utilisateur et la pr´ecision de la segmentation aux d´epens de la
continuit´e avec la m´ethode de d´etection. Dans la litt´erature, la m´ethode de segmentation
interactive de la coupe de graphe propos´ee par Boykov [Boykov and Jolly, 2001] est tr`es
souvent reprise pour son efficacit´e et sa simplicit´e. Nous proposons dans ce chapitre une
m´ethode originale de segmentation de personnes bas´ee sur ce principe. Nous introduisons
des gabarits non binaires, repr´esentant la probabilit´e de chaque pixel d’appartenir `a une
silhouette humaine, pour repr´esenter dans le graphe la connaissance que nous poss´edons
sur la classe recherch´ee.
Nous pr´esentons tout d’abord le principe de la coupe de graphe qui permet la
segmenta-tion interactive dans la secsegmenta-tion 5.1. Puis notre m´ethode est expliqu´ee dans la suite. Un
gabarit unique, valable pour l’ensemble des silhouettes humaines ´etudi´ees, est dans un
premier temps ´etudi´e dans la section 5.2. Pour avoir un gabarit qui s’adapte mieux `a la
posture de la personne ´etudi´ee, un gabarit par parties, o`u les quatre membres et la tˆete
sont consid´er´es s´epar´ement, est mis en place dans la section 5.3. Ces deux principes sont
compar´es et ´evalu´es dans la section 5.4. L’interaction de l’utilisateur peut remplacer la
phase de d´etection. L’´etude n’est alors plus restreinte aux fenˆetres dont la taille est fix´ee
par la m´ethode de d´etection. Les modes d’interactions ad´equats et l’adaptation de notre
m´ethode aux fenˆetres de tailles vari´ees sont pr´esent´es en section 5.6. Une conclusion est
finalement tir´ee en section 5.7.
5.1 La coupe de graphe : une segmentation
interac-tive
La segmentation d’images peut se classer en trois cat´egories :
• La s´eparation de l’image en r´egions partageant une mˆeme caract´eristique (une
cou-leur proche par exemple). Ce d´ecoupage se fait automatiquement et seul le niveau
de d´ecoupage (le nombre de r´egions `a s´eparer dans l’image par exemple) est r´eglable
par l’utilisateur.
• Le d´ecoupage d’un objet du choix de l’utilisateur. L’algorithme n’a aucune
connais-sance sur la nature de l’objet en question. Donc, l’utilisateur doit donner un certain
nombre d’informations pour que le programme sache quel est l’´el´ement de l’image
qu’il veut segmenter. Le nombre de segmentation possible ´etant tr`es important,
l’interaction de l’utilisateur doit alors ˆetre importante et pr´ecise.
• Le d´ecoupage des objets d’une classe bien particuli`ere. Un apprentissage sur la
classe ´etudi´ee permet de d´etecter les objets pertinents dans une image et donne
donc suffisamment d’informations pour se passer de l’interaction avec l’utilisateur.
Notre ´etude sur la segmentation de personne se situe dans la troisi`eme cat´egorie. Aucune
interaction avec l’utilisateur n’est donc n´ecessaire. N´eanmoins, que ce soit pour donner
des r´esultats plus pr´ecis ou bien pour r´eduire le temps de calcul, une l´eg`ere interaction de
l’utilisateur peut permettre d’obtenir de meilleures performances.
5.1.1 M´ethode d’int´eraction
Les modes d’interaction de l’utilisateur peuvent ˆetre multiples. Plusieurs proc´ed´es
sont utilis´ees dans la litt´erature.
L’utilisateur peut tout d’abord r´ealiser un trimap (figure 5.1(b)). Il s’agit d’une carte
de l’image `a segmenter o`u chaque pixel est assign´e `a une des trois r´egions : pixels
appartenant avec certitude au premier plan (l’´el´ement `a segmenter), pixels appartenant
avec certitude `a l’arri`ere plan et pixels dont l’appartenance au premier ou `a l’arri`ere
plan est incertaine. La m´ethode doit alors assigner les pixels de la troisi`eme r´egion.
Cette r´egion est souvent la plus fine et se situe le long des contours de l’objet. C’est une
contrainte forte demand´ee par l’utilisateur mais assez fastidieuse `a r´ealiser. Ce principe
permet une grande pr´ecision (et la possibilit´e de r´ealiser un matting plutˆot qu’une
segmentation). Cependant, les connaissances sur l’objet `a segmenter sont inutiles puisque
la forme globale est d´ej`a donn´ee par l’utilisateur. Ce proc´ed´e ne nous int´eresse donc pas
dans cette ´etude. Il est n´eanmoins beaucoup utilis´e dans la segmentation sans a priori
[Ruzon and Tomasi, 2000][Hillman et al., 2001][Chuang et al., 2001][Sun et al., 2004]
[Huart, 2007].
L’utilisateur peut aussi situer approximativement l’objet `a segmenter par exemple
en l’encadrant dans une fenˆetre [Rother et al., 2004] (figure 5.1(c)). La connaissance
de la classe recherch´ee est alors n´ecessaire pour bien savoir, dans cette fenˆetre, quels
sont les ´el´ements appartenant `a l’objet souhait´e. L’interaction est ici tr`es rapide et
facile mais donne de pr´ecieuses informations. Lin [Lin et al., 2007a] r´ealise une carte
de probabilit´e d’appartenance au premier plan initialis´ee par une gaussienne centr´ee
dans la fenˆetre. Ensuite, un algorithme EM param´etr´e par un estimateur de densit´e
de Kernel [Scott, 1992] affine it´erativement la carte jusqu’`a obtenir la segmentation.
La fenˆetre sert alors de point de d´epart pour le calcul des premiers param`etres. Bray
[Bray et al., 2006] recherche par l’algorithme EM le squelette correspondant `a la personne
pr´esente dans la fenˆetre. Celui-ci initialise un champ al´eatoire de Markov. Une coupe
de graphe de ce champ donne la segmentation. Borenstein [Borenstein and Malik, 2006]
recherche des sous-parties de la classe recherch´ee bien plac´ees dans la fenˆetre. Puis, il
d´ecoupe l’image en r´egions coh´erentes et r´ealise une pyramide `a partir de ces d´ecoupages
et des informations pr´ec´edemment calcul´ees. Une remont´ee de la pyramide engendre
la segmentation. L’interaction sert ici `a d´efinir une vraisemblance de localisation des
sous-parties.
Cependant, la d´etection des personnes est de nos jours assez efficace. Il est alors
assez facile d’obtenir des fenˆetres de d´etection aussi pr´ecises que celles que donnerait
l’utilisateur.
Fig. 5.1 – Diff´erents modes d’interaction de l’utilisateur. (a) image initiale o`u l’´ecureuil
doit ˆetre segment´e. (b) trimap o`u les pixels appartenant certainement au premier plan
sont en blancs, les pixels appartenant certainement `a l’arri`ere plan sont en noirs et les
pixels incertains sont en gris. Ce trimap est compliqu´e `a obtenir. (c) l’utilisateur a juste
encadr´e l’objet d’int´erˆet pour le localiser. (d) par des traits (vert pour le premier plan et
rouge pour l’arri`ere plan), l’utilisateur a assign´e certains pixels `a la r´egion `a laquelle ils
appartiennent.
Enfin, l’utilisateur peut juste tracer quelques traits sur l’image (figure 5.1(d)) pour fixer
des pixels appartenant au premier et `a l’arri`ere plan [Li et al., 2004][Guan et al., 2006].
Encore une fois le travail `a r´ealiser par l’utilisateur est tr`es restreint et rapide.
Cette assignation est parfaitement adapt´ee aux r´esolutions par coupe de graphe
[Boykov and Jolly, 2001][Kumar et al., 2005]. Il est en effet facile de forcer des pixels `a
appartenir `a une des deux r´egions en jouant sur les poids des arcs du graphe (voir section
5.1.2). De plus, il est tr`es facile de remodifier une premi`ere segmentation en marquant
des pixels des parties mal attribu´ees. La coupe de graphe est donc une m´ethode tr`es
flexible qui semble la plus `a mˆeme de convenir `a notre ´etude.
Dans le document
Segmentation de personnes dans les images et les vidéos
(Page 96-99)