Vue cl´ e

Dans le document The DART-Europe E-theses Portal (Page 92-99)

4.7 S´ election de l’objet cl´ e et des vues cl´ es

4.7.2 Vue cl´ e

a l’aide de l’algorithme des k-means. Cb est le sous-ensemble dont la qualit´e moyenne de masque est la plus ´elev´ee. C’est lui qui fournit l’objet-cl´e.

4.7.2 Vue cl´ e

On propose ici d’extraire automatiquement un S-VOP suppl´ementaire constituant une vue cl´e repr´ e-sentant un aspect diff´erent de l’objet d’int´erˆet. La m´ethode retenue utilise une approche contour. Le principe est de rechercher dans l’ensembleCb le S-VOP dont la r´epartition des contours (cf fig.4.11.b et 4.11.c) est la plus dissemblable de celle de l’objet cl´e. Pour cela, chaque S-VOP de Cb est mod´elis´e par une ellipse qui est ensuite compar´ee `a l’ellipse de l’objet cl´e (cf fig.4.11.d).

Pour garantir l’invariance en rotation, il convient de mettre en correspondance au mieux les 2 ellipses

`

a comparer. Les deux axes principaux d’une ellipse la d´ecoupent en 4 quartiers comme le montre la figure 4.12.b. Chaque quartieridu S-VOP ainsi d´elimit´e fournit une valeur moyenne de la norme du gradient µGi, calcul´ee sur les pixels qu’il contient. LesµGi permettent de calculer une diff´erenced(cf eq. 4.17)

(b) Les S-VOPs d’aires moyennes (qualit´e moyenne : 0.37)

(c) Les S-VOPs d’aires faibles (qualit´e moyenne : 0.41)

(c) L’objet cl´e

Figure4.10 – D´ecoupage d’une classe en 3 sous-ensembles : le sous ensemble (a) qui fournit les masques de meilleure qualit´e fournit ´egalement l’objet-cl´e

(a) S-VOP extrait de l’image #111 de Foreman)

(b) Masque du S-VOP

(c) Norme du gra-dient

(d) Mod´elisation ellipso¨ıdale

Figure4.11 – Extraction des donn´ees contour

entre deux ellipses e1 et e2 pour chacune des 4 positions possibles correspondant `a une permutation circulairepdes quartiers dee1 par rapport `ae2.

d(e1, e2, p) = v u u t

4

X

i=1

(µG(e1)i−µG(e2)(p+i)mod 4)2) avecp∈J0,3K (4.17) La meilleure correspondance entre l’ellipse de l’objet cl´e et celle du S-VOP candidat est celle qui minimise la diff´erencedet celle qui est utilis´ee.

Soienteocl’ellipse de l’objet cl´e etecl’ellipse du S-VOP candidat. La vue cl´e d’une classe est le S-VOP qui maximise la meilleure correspondance :

Ic= max

c (min

p (d(eoc, ec, p))) (4.18)

Comme le montre l’´equation 4.18, la vue cl´e est le S-VOP dont l’ellipse correctement compar´ee (la

4.8. R ´ESULTATS 87

Figure4.12 – D´ecoupage de l’ellipse d’approximation

correspondance la plus probable parmi 4) est la plus dissemblable en terme de contours `a l’ellipse de l’objet cl´e.

Afin de s´electionnerN vues cl´e (N >1), il faut calculer Ic pour chaque paire de S-VOPs de C. Leb principe est alors de trouver l’ensemble des N S-VOPs maximisant les diff´erences entre eux. Ce travail n’a pas ´et´e r´ealis´e par manque de temps mais constitue une fonctionnalit´e int´eressante pour l’utilisateur.

4.8 R´ esultats

Nous illustrons nos traitements avec deux vid´eos. La premi`ere, appel´eev´elo dure 3 secondes et com-porte 90 images. On y voit un v´elo qui rentre dans le champ de la cam´era, le traverse et en sort. La cam´era est immobile mais est tenue `a la main. L’objet cycliste a une surface qui varie d’un facteur 3 environ (fi-gure4.13.c). Le traitement extrait une classe comportant 14 S-VOPs (figure4.13.a). Cet exemple montre bien que la m´ethode peut ˆetre utilis´ee comme suivi `a part enti`ere d’objets en mouvement. La figure4.13.b montre les images originales d’o`u sont extraits les S-VOPs. On remarque que le fond est complexe et que la cycliste n’est pas bien contrast´ee avec le fond. N´eanmoins, sans ˆetre parfaits, les diff´erents S-VOPs sont assez stables et descriptifs par rapport `a l’objet d’int´erˆet.

La seconde vid´eo, nomm´ee Chavant montre la circulation en ville. La cam´era, toujours tenue `a la main, se comporte de diverses fa¸cons : elle est fixe, puis effectue quelques panoramiques dans le sens des v´ehicules puis dans le sens contraire. Ces mouvements sont accompagn´es de zooms avant et arri`ere. Douze v´ehicules traversent le champ de la cam´era de droite `a gauche. Deux personnages passent au premier plan et se croisent. La vid´eo dure 18 secondes c’est-`a-dire 540 images. 12 objets-cl´e sont extraits (figure4.14.a) au lieu de 14 esp´er´es. Parmi eux, 6 voitures de couleur gris m´etallis´e tr`es similaires et deux pi´etons. La segmentation est de bonne qualit´e, les objets-cl´e ne d´ebordent pas sur le fond et il est assez facile par exemple de reconnaˆıtre le mod`ele de chaque v´ehicule. Deux voitures (identiques) ne sont pas extraites.

Elles se suivent et sont partiellement occult´ees par des poteaux qui les ”d´ecoupent” en plusieurs morceaux (figure 4.14.b). On peut supposer qu’elles ont g´en´er´e d’une part peu de S-VOPs (la cam´era ne les suit pas) et d’autre part des S-VOPs trop petits. En cons´equence de quoi, les classes correspondantes ont dˆu ˆ

etre supprim´ees.

4.9 Conclusion

L’´etape de s´election de l’objet cl´e permet d’obtenir un masque binaire relativement caract´eristique de l’objet d’int´erˆet. Bien qu’il ne recouvre g´en´eralement pas totalement l’objet d’int´erˆet, la correspondance fronti`ere/contour du masque avec l’objet est de qualit´e suffisante pour envisager une initialisation et/ou

(a) Les 14 S-VOPs extraits

(b) Les images originales correspondantes

(c) Mixage des images 25, 39 et 63 montrant le l´eger bou-ger de la cam´era et la variation de taille de l’objet d’int´erˆet

Figure4.13 – Extraction d’un objet-cl´e dans la s´equencev´elo (les num´eros des images sont indiqu´es) un contrˆole efficace de suivi tel que celui pr´esent´e au chapitre pr´ec´edent `a la section3.4. Le masque de l’objet cl´e fournit une initialisation automatique int´eressante pour ce type d’application dont le principal d´efaut est l’initialisation manuelle.

Le suivi peut ´egalement ˆetre remis en cause lorsque l’image trait´ee correspond `a l’image d’o`u est extraite une ´eventuelle vue cl´e. En effet il est int´eressant de pouvoir confronter la vue cl´e avec le r´esultat courant obtenu par le suivi. Si les divergences sont trop importantes, il est possible de prendre la d´ecision de r´einitialiser le processus de suivi `a l’aide de cette vue cl´e.

La phase d’´evaluation comparative de notre approche n’a pas ´et´e r´ealis´ee. Comme nous avons orient´e notre recherche dans une direction peu suivie, il est difficile d’envisager une proc´edure assez simple et syst´ematique. Toutefois, il nous semble probable que les crit`eres subjectifs sont plus repr´esentatifs que les crit`eres objectifs. Cette d´emarche ne peut ˆetre envisag´ee s´erieusement qu’avec l’aide de sp´ecialistes du domaine psycho-visuel avec lesquels il faudrait travailler.

4.9. CONCLUSION 89

(a) Ici, on pr´esente un couple d’images par objet-cl´e : l’image originale o`u a ´et´e extrait l’objet-cl´e et le masque correspondant

(b) Les 2 voitures non d´etect´ees par la technique

Figure 4.14 – Extraction de 12 objets-cl´e dans la s´equenceChavant

Chapitre 5

Ce chapitre s’int´eresse au cas particulier de la segmentation des personnes dans les images, lorsqu’elles sont debout et en majeure partie visibles. Je pr´esente ici les travaux en cours de la th`ese de Cyrille Migniot qui a construit une m´ethode dont les deux points cl´e sont une mod´elisation par gabarits et une utilisation particuli`ere de la technique bien connue du graph-cut.

5.1 Introduction

D

e tous les ”objets” pr´esents dans une image ou une vid´eo, les personnes sont sans doutes ceux qui int´eressent le plus les chercheurs et les applications : d´etection de visages et de leurs diverses composantes pour la biom´etrie, la photographie, la robotique, les IHM, la surveillance, la gestion par le contenu, . . . ). La d´etection des personnes est parfois insuffisante et une localisation plus pr´ecise de leur silhouette est n´ecessaire pour pouvoir ´etudier leurs gestes, leur comportement ou pour r´ealiser de l’´edition d’image (extraction / incrustation) souvent prises dans des conditions non optimales.

En raison de la grande variabilit´e des couleurs et des textures qu’une personne peut porter mais

´

egalement par les diff´erentes positions qu’elle peut prendre, cette tˆache est un vrai d´efi. Dans ce domaine comme dans de nombreux autres en analyse d’image et en vision par ordinateur, le but est d’´eviter une supervision quelconque par un utilisateur.

Pour la d´etection et la segmentation de personnes, de nombreuses m´ethodes utilisent des gabarits binaires. Un gabarit est un mod`ele permettant de caract´eriser la forme g´en´erale des ´el´ements d’une classe.

Dans celle des personnes, les postures pouvant apparaˆıtre sont assez vari´ees et influencent vraiment la segmentation. Un gabarit repr´esente alors l’allure de la silhouette pour une de ces postures par un masque binaire. Un catalogue de gabarits est r´ealis´e contenant toutes les postures que la personne peut prendre.

Ces gabarits sont ensuite compar´es un par un aux caract´eristiques de l’image (souvent les contours [ZD05]). Si la comparaison est positive, une personne est d´etect´ee et le gabarit donne sa posture. La

91

Dans le document The DART-Europe E-theses Portal (Page 92-99)