Résultats et discussion

Bien que notre méthode puisse être associée à une méthode de suivi dans les cas où l’objet est animé d’un mouvement apparent net, il n’est pas forcément possible d’extraire à chaque

Résultats obtenus sur une séquence vidéo partagée sur le site internet blip.tv, intituléeSimple Do’s and Don’ts no

15. Distribution sous licence Creative Commons : Pas d’Utilisation Commerciale - Partage des Conditions Initiales à l’Identique

(a) Les 14 S-VOPs extraits

(b) Les images originales correspondantes

de l’objet d’intérêt

(a) Ici, on présente un couple d’images par objet-clé : l’image originale où a été extrait l’objet-clé et le masque correspondant

(b) Les 2 voitures non détectées par la technique

sérieuse-(a) Objets peu mobiles

(b) Objets en translation

Bien que notre méthode puisse être associée à une méthode de suivi dans les cas où l’objet est animé d’un mouvement apparent net, il n’est pas forcément possible d’extraire à chaque

5.8 Résultats et discussion

5.7.2 Contrôle

L’extraction image par image par projection de partition est soumise à plusieurs

inconvé-nients qui sont les fuites et les occultations. Pour un objet d’intérêt donné, le fait de disposer

d’un ensemble de masques de qualité que sont les S-VOPs de la classe-clé, permet de contrôler

ce type de suivi. Le principe est de remettre à jour le suivi grâce aux S-VOPs pertinents de la

classe-clé, aux images correspondantes. Les résultats de contrôle présentés en annexe F à la

figure F.1.c sont obtenus avec les S-VOPs issus deCb. Les différents S-VOPs de contrôle sont

repérés par un cadre bleu. Le contrôle permet également de pallier le problème d’occultation

qui constitue une des principales limites des méthodes de suivi par projection de partition.

Les résultats de la figure F.2 proposés en annexe F sont obtenus avec des S-VOPs choisis

manuellement dans C (encadrés en bleu). L’occultation est signifiée par un rectangle rouge.

Par la suite, nous comptons automatiser la sélection des S-VOPs de contrôle. Le principe

est de confronter le résultat obtenu par le suivi et le S-VOP de l’image correspondante. Si

les divergences sont trop importantes, il est possible de prendre la décision de réinitialiser le

procédé de suivi à l’aide de ce S-VOP de contrôle.

5.8 Résultats et discussion

Le premier résultat que nous présentons dans la figure 5.24 présente un aperçu des S-VOPs

extraits lors d’un plan. Il dure 3 secondes et comporte 90 images. On y voit un vélo qui rentre

dans le champ de la caméra, le traverse et en sort. La caméra est immobile mais est tenue

à la main. L’objet cycliste a une surface qui varie d’un facteur 3 environ (figure 5.24.c). Le

traitement extrait une classe-clé comportant 14 S-VOPs (figure 5.24.a). Cet exemple montre

bien que la méthode peut être utilisée comme suivi à part entière d’objets en mouvement. La

figure 5.24.b montre les images originales d’où sont extraits les S-VOPs. On remarque que

le fond est complexe et que la cycliste n’est pas bien contrastée avec le fond. Néanmoins,

sans être parfaits, les différents S-VOPs sont assez stables et descriptifs par rapport à l’objet

d’intérêt.

La seconde vidéo, nomméeChavantmontre la circulation en ville. La caméra, toujours

te-nue à la main, se comporte de diverses façons : elle est fixe, puis effectue quelques panoramiques

dans le sens des véhicules puis dans le sens contraire. Ces mouvements sont accompagnés de

zooms avant et arrière. Douze véhicules traversent le champ de la caméra de droite à gauche.

Deux personnages passent au premier plan et se croisent. La vidéo dure 18 secondes

c’est-à-dire 540 images. 12 objets-clés sont extraits (figure 5.25.a) au lieu de 14 espérés. Parmi eux, 6

voitures de couleur gris métallisé très similaires et deux piétons. La segmentation est de bonne

qualité, les objets-clés ne débordent pas sur le fond et il est assez facile par exemple de

recon-naître le modèle de chaque véhicule. Deux voitures (identiques) ne sont pas extraites. Elles

se suivent et sont partiellement occultées par des poteaux qui les "découpent" en plusieurs

morceaux (figure 5.25.b). On peut supposer qu’elles ont généré d’une part peu de S-VOPs (la

caméra ne les suit pas) et d’autre part des S-VOPs trop petits. En conséquence de quoi, les

classes correspondantes ont dû être supprimées.

La figure 5.26 présente les résumés vidéos de divers plans vidéos dont les objets sont

re-lativement difficiles à extraire que ce soit à cause de leur mouvement faible (cf. figure 5.26.a

et 5.26.c) ou de leur forme complexe. Cependant, nous pouvons voir que les objets-clés sont

généralement de bonne qualité bien qu’ils intègrent quelques petites régions du fond. La

sé-lection de la vue supplémentaire est systématique. C’est pourquoi, si l’objet ne change pas

d’apparence la vue supplémentaire reste assez similaire à l’objet-clé.

Fig. 5.24: Extraction d’un objet-clé dans la séquencevélo (les numéros des images sont

indi-qués)

Les taux de fausses et de vraies détections des zooms et des inclusions permettant de

représenter la composition de l’objet n’ont pas été étudiés. La sélection de ces vues est

présen-tée dans ce manuscrit afin de montrer les diverses possibilités de l’utilisation des classes-clés

et des S-VOPs qu’elles contiennent : une fois que l’objet-clé a été déterminé, la population

de la classe-clé associée peut être étudiée et caractérisée plus en détails. L’utilisation des

S-VOPs pertinents d’une classe clé, bien qu’elle semble expérimentalement correcte, devra être

complétée par la suite.

5.9 Conclusion

L’étape de sélection de l’objet-clé permet d’obtenir un masque binaire relativement

carac-téristique de l’objet d’intérêt. Dans le cas du résumé vidéo, il permet de focaliser l’attention du

5.9. Conclusion 141

Fig.5.25: Extraction de 12 objets-clés dans la séquence Chavant

spectateur sur l’objet d’intérêt tout en fournissant un masque binaire utilisable pour des

appli-cations de type indexation. Bien que n’étant pas parfaite, la qualité sémantique des objets-clés

permet dans la plupart des cas, une reconnaissance relativement aisée de l’objet d’intérêt.

En ce qui concerne la qualité de segmentation des objets-clés, bien qu’ils ne recouvrent

généralement pas totalement l’objet d’intérêt, la correspondance frontière/contour du masque

avec l’objet est de qualité suffisante pour envisager une initialisation et/ou un contrôle efficace

de suivi comme nous l’avons vu au paragraphe 5.7. Le masque de l’objet-clé fournit une

initialisation automatique intéressante pour ce type d’application dont le principal défaut est

l’initialisation manuelle. Tandis que les vues-clés permettent de contrôler le suivi et de gérer les

occultations de l’objet d’intérêt. Cette méthode de contrôle du suivi semble prometteuse mais

nécessite encore quelques améliorations quant à l’automatisation de la sélection des S-VOPs

de contrôle.

La phase d’évaluation de notre approche n’est pas encore réalisée. Comme nous avons

orienté notre recherche dans une direction peu suivie, il est difficile d’envisager une procédure

assez simple et systématique. Toutefois, il nous semble probable que les critères subjectifs sont

plus représentatifs que les critères objectifs. Cette démarche ne peut être envisagée

5.9. Conclusion 143