• Aucun résultat trouvé

M´ethode d’int´eraction

4.7 Conclusion

5.1.1 M´ethode d’int´eraction

5.2 Segmentation par un gabarit unique . . . . 100

5.2.1 Arˆetes de voisinage . . . . 102

5.2.2 Arˆetes de liaisons . . . . 103

5.3 Segmentation avec un gabarit par parties . . . . 104

5.4 R´esultats . . . . 105

5.4.1 Optimisation du processus . . . . 105

5.4.2 Gabarit unique ou par parties ? . . . . 105

5.5 Ajout de l’information de luminance . . . . 106

5.5.1 Pr´esentation de la m´ethode . . . . 107

5.5.2 R´esultats . . . . 109

5.6 Fenˆetres de tailles quelconques . . . . 109

5.6.1 Segmentation de fenˆetres de tailles quelconques . . . . 111

5.6.2 Modes d’interactions . . . . 113

5.6.3 Encadrement . . . . 114

5.6.4 Marqueurs . . . . 115

5.6.5 Pointage de sous-parties . . . . 116

5.7 Conclusion . . . . 117

Pour obtenir une segmentation pr´ecise ou bien pour que l’utilisateur ait un contrˆole

plus important sur le r´esultat, il est int´eressant que l’utilisateur puisse avoir une

interaction avec la m´ethode qu’il utilise. Si cette interaction est pr´ejudiciable dans

certaines applications temps r´eel comme la vid´eo-surveillance ou l’assistance de conduite,

o`u l’on comprend ais´ement que l’utilisateur n’a pas le temps d’influencer le calcul,

elle est fortement recommand´ee pour tous les travaux de post-traitements. Cependant

l’interaction doit rester la plus mince possible pour minimiser le travail `a effectuer par

l’utilisateur. De plus, l’interaction doit bien s’int´egrer dans le principe de la m´ethode

pour que l’information donn´ee par l’utilisateur soit la plus profitable au temps de calcul

et `a la pr´ecision du r´esultat.

En opposition aux chapitres 3 et 4, nous avons d´evelopp´e une m´ethode favorisant

l’interaction avec l’utilisateur et la pr´ecision de la segmentation aux d´epens de la

continuit´e avec la m´ethode de d´etection. Dans la litt´erature, la m´ethode de segmentation

interactive de la coupe de graphe propos´ee par Boykov [Boykov and Jolly, 2001] est tr`es

souvent reprise pour son efficacit´e et sa simplicit´e. Nous proposons dans ce chapitre une

m´ethode originale de segmentation de personnes bas´ee sur ce principe. Nous introduisons

des gabarits non binaires, repr´esentant la probabilit´e de chaque pixel d’appartenir `a une

silhouette humaine, pour repr´esenter dans le graphe la connaissance que nous poss´edons

sur la classe recherch´ee.

Nous pr´esentons tout d’abord le principe de la coupe de graphe qui permet la

segmenta-tion interactive dans la secsegmenta-tion 5.1. Puis notre m´ethode est expliqu´ee dans la suite. Un

gabarit unique, valable pour l’ensemble des silhouettes humaines ´etudi´ees, est dans un

premier temps ´etudi´e dans la section 5.2. Pour avoir un gabarit qui s’adapte mieux `a la

posture de la personne ´etudi´ee, un gabarit par parties, o`u les quatre membres et la tˆete

sont consid´er´es s´epar´ement, est mis en place dans la section 5.3. Ces deux principes sont

compar´es et ´evalu´es dans la section 5.4. L’interaction de l’utilisateur peut remplacer la

phase de d´etection. L’´etude n’est alors plus restreinte aux fenˆetres dont la taille est fix´ee

par la m´ethode de d´etection. Les modes d’interactions ad´equats et l’adaptation de notre

m´ethode aux fenˆetres de tailles vari´ees sont pr´esent´es en section 5.6. Une conclusion est

finalement tir´ee en section 5.7.

5.1 La coupe de graphe : une segmentation

interac-tive

La segmentation d’images peut se classer en trois cat´egories :

• La s´eparation de l’image en r´egions partageant une mˆeme caract´eristique (une

cou-leur proche par exemple). Ce d´ecoupage se fait automatiquement et seul le niveau

de d´ecoupage (le nombre de r´egions `a s´eparer dans l’image par exemple) est r´eglable

par l’utilisateur.

• Le d´ecoupage d’un objet du choix de l’utilisateur. L’algorithme n’a aucune

connais-sance sur la nature de l’objet en question. Donc, l’utilisateur doit donner un certain

nombre d’informations pour que le programme sache quel est l’´el´ement de l’image

qu’il veut segmenter. Le nombre de segmentation possible ´etant tr`es important,

l’interaction de l’utilisateur doit alors ˆetre importante et pr´ecise.

• Le d´ecoupage des objets d’une classe bien particuli`ere. Un apprentissage sur la

classe ´etudi´ee permet de d´etecter les objets pertinents dans une image et donne

donc suffisamment d’informations pour se passer de l’interaction avec l’utilisateur.

Notre ´etude sur la segmentation de personne se situe dans la troisi`eme cat´egorie. Aucune

interaction avec l’utilisateur n’est donc n´ecessaire. N´eanmoins, que ce soit pour donner

des r´esultats plus pr´ecis ou bien pour r´eduire le temps de calcul, une l´eg`ere interaction de

l’utilisateur peut permettre d’obtenir de meilleures performances.

5.1.1 M´ethode d’int´eraction

Les modes d’interaction de l’utilisateur peuvent ˆetre multiples. Plusieurs proc´ed´es

sont utilis´ees dans la litt´erature.

L’utilisateur peut tout d’abord r´ealiser un trimap (figure 5.1(b)). Il s’agit d’une carte

de l’image `a segmenter o`u chaque pixel est assign´e `a une des trois r´egions : pixels

appartenant avec certitude au premier plan (l’´el´ement `a segmenter), pixels appartenant

avec certitude `a l’arri`ere plan et pixels dont l’appartenance au premier ou `a l’arri`ere

plan est incertaine. La m´ethode doit alors assigner les pixels de la troisi`eme r´egion.

Cette r´egion est souvent la plus fine et se situe le long des contours de l’objet. C’est une

contrainte forte demand´ee par l’utilisateur mais assez fastidieuse `a r´ealiser. Ce principe

permet une grande pr´ecision (et la possibilit´e de r´ealiser un matting plutˆot qu’une

segmentation). Cependant, les connaissances sur l’objet `a segmenter sont inutiles puisque

la forme globale est d´ej`a donn´ee par l’utilisateur. Ce proc´ed´e ne nous int´eresse donc pas

dans cette ´etude. Il est n´eanmoins beaucoup utilis´e dans la segmentation sans a priori

[Ruzon and Tomasi, 2000][Hillman et al., 2001][Chuang et al., 2001][Sun et al., 2004]

[Huart, 2007].

L’utilisateur peut aussi situer approximativement l’objet `a segmenter par exemple

en l’encadrant dans une fenˆetre [Rother et al., 2004] (figure 5.1(c)). La connaissance

de la classe recherch´ee est alors n´ecessaire pour bien savoir, dans cette fenˆetre, quels

sont les ´el´ements appartenant `a l’objet souhait´e. L’interaction est ici tr`es rapide et

facile mais donne de pr´ecieuses informations. Lin [Lin et al., 2007a] r´ealise une carte

de probabilit´e d’appartenance au premier plan initialis´ee par une gaussienne centr´ee

dans la fenˆetre. Ensuite, un algorithme EM param´etr´e par un estimateur de densit´e

de Kernel [Scott, 1992] affine it´erativement la carte jusqu’`a obtenir la segmentation.

La fenˆetre sert alors de point de d´epart pour le calcul des premiers param`etres. Bray

[Bray et al., 2006] recherche par l’algorithme EM le squelette correspondant `a la personne

pr´esente dans la fenˆetre. Celui-ci initialise un champ al´eatoire de Markov. Une coupe

de graphe de ce champ donne la segmentation. Borenstein [Borenstein and Malik, 2006]

recherche des sous-parties de la classe recherch´ee bien plac´ees dans la fenˆetre. Puis, il

d´ecoupe l’image en r´egions coh´erentes et r´ealise une pyramide `a partir de ces d´ecoupages

et des informations pr´ec´edemment calcul´ees. Une remont´ee de la pyramide engendre

la segmentation. L’interaction sert ici `a d´efinir une vraisemblance de localisation des

sous-parties.

Cependant, la d´etection des personnes est de nos jours assez efficace. Il est alors

assez facile d’obtenir des fenˆetres de d´etection aussi pr´ecises que celles que donnerait

l’utilisateur.

Fig. 5.1 – Diff´erents modes d’interaction de l’utilisateur. (a) image initiale o`u l’´ecureuil

doit ˆetre segment´e. (b) trimap o`u les pixels appartenant certainement au premier plan

sont en blancs, les pixels appartenant certainement `a l’arri`ere plan sont en noirs et les

pixels incertains sont en gris. Ce trimap est compliqu´e `a obtenir. (c) l’utilisateur a juste

encadr´e l’objet d’int´erˆet pour le localiser. (d) par des traits (vert pour le premier plan et

rouge pour l’arri`ere plan), l’utilisateur a assign´e certains pixels `a la r´egion `a laquelle ils

appartiennent.

Enfin, l’utilisateur peut juste tracer quelques traits sur l’image (figure 5.1(d)) pour fixer

des pixels appartenant au premier et `a l’arri`ere plan [Li et al., 2004][Guan et al., 2006].

Encore une fois le travail `a r´ealiser par l’utilisateur est tr`es restreint et rapide.

Cette assignation est parfaitement adapt´ee aux r´esolutions par coupe de graphe

[Boykov and Jolly, 2001][Kumar et al., 2005]. Il est en effet facile de forcer des pixels `a

appartenir `a une des deux r´egions en jouant sur les poids des arcs du graphe (voir section

5.1.2). De plus, il est tr`es facile de remodifier une premi`ere segmentation en marquant

des pixels des parties mal attribu´ees. La coupe de graphe est donc une m´ethode tr`es

flexible qui semble la plus `a mˆeme de convenir `a notre ´etude.