M´ethode d’int´eraction - Segmentation de personnes dans les images et les vidéos

4.7 Conclusion

5.1.1 M´ethode d’int´eraction

5.2 Segmentation par un gabarit unique . . . . 100

5.2.1 Arˆetes de voisinage . . . . 102

5.2.2 Arˆetes de liaisons . . . . 103

5.3 Segmentation avec un gabarit par parties . . . . 104

5.4 R´esultats . . . . 105

5.4.1 Optimisation du processus . . . . 105

5.4.2 Gabarit unique ou par parties ? . . . . 105

5.5 Ajout de l’information de luminance . . . . 106

5.5.1 Pr´esentation de la m´ethode . . . . 107

5.5.2 R´esultats . . . . 109

5.6 Fenˆetres de tailles quelconques . . . . 109

5.6.1 Segmentation de fenˆetres de tailles quelconques . . . . 111

5.6.2 Modes d’interactions . . . . 113

5.6.3 Encadrement . . . . 114

5.6.4 Marqueurs . . . . 115

5.6.5 Pointage de sous-parties . . . . 116

5.7 Conclusion . . . . 117

Pour obtenir une segmentation pr´ecise ou bien pour que l’utilisateur ait un contrˆole

plus important sur le r´esultat, il est int´eressant que l’utilisateur puisse avoir une

interaction avec la m´ethode qu’il utilise. Si cette interaction est pr´ejudiciable dans

certaines applications temps r´eel comme la vid´eo-surveillance ou l’assistance de conduite,

o`u l’on comprend ais´ement que l’utilisateur n’a pas le temps d’influencer le calcul,

elle est fortement recommand´ee pour tous les travaux de post-traitements. Cependant

l’interaction doit rester la plus mince possible pour minimiser le travail `a effectuer par

l’utilisateur. De plus, l’interaction doit bien s’int´egrer dans le principe de la m´ethode

pour que l’information donn´ee par l’utilisateur soit la plus profitable au temps de calcul

et à la précision du résultat.

En opposition aux chapitres 3 et 4, nous avons développé une méthode favorisant

l’interaction avec l’utilisateur et la pr´ecision de la segmentation aux d´epens de la

continuité avec la méthode de détection. Dans la littérature, la méthode de segmentation

interactive de la coupe de graphe propos´ee par Boykov [Boykov and Jolly, 2001] est tr`es

souvent reprise pour son efficacit´e et sa simplicit´e. Nous proposons dans ce chapitre une

m´ethode originale de segmentation de personnes bas´ee sur ce principe. Nous introduisons

des gabarits non binaires, représentant la probabilité de chaque pixel d’appartenir à une

silhouette humaine, pour repr´esenter dans le graphe la connaissance que nous poss´edons

sur la classe recherch´ee.

Nous pr´esentons tout d’abord le principe de la coupe de graphe qui permet la

segmenta-tion interactive dans la secsegmenta-tion 5.1. Puis notre m´ethode est expliqu´ee dans la suite. Un

gabarit unique, valable pour l’ensemble des silhouettes humaines ´etudi´ees, est dans un

premier temps étudié dans la section 5.2. Pour avoir un gabarit qui s’adapte mieux à la

posture de la personne étudiée, un gabarit par parties, où les quatre membres et la tête

sont considérés séparément, est mis en place dans la section 5.3. Ces deux principes sont

comparés et évalués dans la section 5.4. L’interaction de l’utilisateur peut remplacer la

phase de détection. L’étude n’est alors plus restreinte aux fenêtres dont la taille est fixée

par la méthode de détection. Les modes d’interactions adéquats et l’adaptation de notre

méthode aux fenêtres de tailles variées sont présentés en section 5.6. Une conclusion est

finalement tir´ee en section 5.7.

5.1 La coupe de graphe : une segmentation

interac-tive

La segmentation d’images peut se classer en trois cat´egories :

• La séparation de l’image en régions partageant une même caractéristique (une

cou-leur proche par exemple). Ce d´ecoupage se fait automatiquement et seul le niveau

de découpage (le nombre de régions à séparer dans l’image par exemple) est réglable

par l’utilisateur.

• Le d´ecoupage d’un objet du choix de l’utilisateur. L’algorithme n’a aucune

connais-sance sur la nature de l’objet en question. Donc, l’utilisateur doit donner un certain

nombre d’informations pour que le programme sache quel est l’´el´ement de l’image

qu’il veut segmenter. Le nombre de segmentation possible ´etant tr`es important,

l’interaction de l’utilisateur doit alors ˆetre importante et pr´ecise.

• Le d´ecoupage des objets d’une classe bien particuli`ere. Un apprentissage sur la

classe étudiée permet de détecter les objets pertinents dans une image et donne

donc suffisamment d’informations pour se passer de l’interaction avec l’utilisateur.

Notre étude sur la segmentation de personne se situe dans la troisième catégorie. Aucune

interaction avec l’utilisateur n’est donc n´ecessaire. N´eanmoins, que ce soit pour donner

des résultats plus précis ou bien pour réduire le temps de calcul, une légère interaction de

l’utilisateur peut permettre d’obtenir de meilleures performances.

5.1.1 M´ethode d’int´eraction

Les modes d’interaction de l’utilisateur peuvent être multiples. Plusieurs procédés

sont utilis´ees dans la litt´erature.

L’utilisateur peut tout d’abord r´ealiser un trimap (figure 5.1(b)). Il s’agit d’une carte

de l’image à segmenter où chaque pixel est assigné à une des trois régions : pixels

appartenant avec certitude au premier plan (l’élément à segmenter), pixels appartenant

avec certitude à l’arrière plan et pixels dont l’appartenance au premier ou à l’arrière

plan est incertaine. La méthode doit alors assigner les pixels de la troisième région.

Cette r´egion est souvent la plus fine et se situe le long des contours de l’objet. C’est une

contrainte forte demandée par l’utilisateur mais assez fastidieuse à réaliser. Ce principe

permet une grande précision (et la possibilité de réaliser un matting plutôt qu’une

segmentation). Cependant, les connaissances sur l’objet `a segmenter sont inutiles puisque

la forme globale est déjà donnée par l’utilisateur. Ce procédé ne nous intéresse donc pas

dans cette étude. Il est néanmoins beaucoup utilisé dans la segmentation sans a priori

[Ruzon and Tomasi, 2000][Hillman et al., 2001][Chuang et al., 2001][Sun et al., 2004]

[Huart, 2007].

L’utilisateur peut aussi situer approximativement l’objet `a segmenter par exemple

en l’encadrant dans une fenˆetre [Rother et al., 2004] (figure 5.1(c)). La connaissance

de la classe recherchée est alors nécessaire pour bien savoir, dans cette fenêtre, quels

sont les éléments appartenant à l’objet souhaité. L’interaction est ici très rapide et

facile mais donne de pr´ecieuses informations. Lin [Lin et al., 2007a] r´ealise une carte

de probabilité d’appartenance au premier plan initialisée par une gaussienne centrée

dans la fenêtre. Ensuite, un algorithme EM paramétré par un estimateur de densité

de Kernel [Scott, 1992] affine it´erativement la carte jusqu’`a obtenir la segmentation.

La fenêtre sert alors de point de départ pour le calcul des premiers paramètres. Bray

[Bray et al., 2006] recherche par l’algorithme EM le squelette correspondant `a la personne

présente dans la fenêtre. Celui-ci initialise un champ aléatoire de Markov. Une coupe

de graphe de ce champ donne la segmentation. Borenstein [Borenstein and Malik, 2006]

recherche des sous-parties de la classe recherchée bien placées dans la fenêtre. Puis, il

découpe l’image en régions cohérentes et réalise une pyramide à partir de ces découpages

et des informations précédemment calculées. Une remontée de la pyramide engendre

la segmentation. L’interaction sert ici `a d´efinir une vraisemblance de localisation des

sous-parties.

Cependant, la d´etection des personnes est de nos jours assez efficace. Il est alors

assez facile d’obtenir des fenêtres de détection aussi précises que celles que donnerait

l’utilisateur.

Fig. 5.1 – Différents modes d’interaction de l’utilisateur. (a) image initiale où l’écureuil

doit être segmenté. (b) trimap où les pixels appartenant certainement au premier plan

sont en blancs, les pixels appartenant certainement `a l’arri`ere plan sont en noirs et les

pixels incertains sont en gris. Ce trimap est compliqu´e `a obtenir. (c) l’utilisateur a juste

encadré l’objet d’intérêt pour le localiser. (d) par des traits (vert pour le premier plan et

rouge pour l’arrière plan), l’utilisateur a assigné certains pixels à la région à laquelle ils

appartiennent.

Enfin, l’utilisateur peut juste tracer quelques traits sur l’image (figure 5.1(d)) pour fixer

des pixels appartenant au premier et `a l’arri`ere plan [Li et al., 2004][Guan et al., 2006].

Encore une fois le travail à réaliser par l’utilisateur est très restreint et rapide.

Cette assignation est parfaitement adapt´ee aux r´esolutions par coupe de graphe

[Boykov and Jolly, 2001][Kumar et al., 2005]. Il est en effet facile de forcer des pixels `a

appartenir `a une des deux r´egions en jouant sur les poids des arcs du graphe (voir section

5.1.2). De plus, il est tr`es facile de remodifier une premi`ere segmentation en marquant

des pixels des parties mal attribuées. La coupe de graphe est donc une méthode très

flexible qui semble la plus à même de convenir à notre étude.

Dans le document Segmentation de personnes dans les images et les vidéos (Page 96-99)