Bien que notre méthode puisse être associée à une méthode de suivi dans les cas où l’objet est animé d’un mouvement apparent net, il n’est pas forcément possible d’extraire à chaque
5.8 Résultats et discussion
5.7.2 Contrôle
L’extraction image par image par projection de partition est soumise à plusieurs
inconvé-nients qui sont les fuites et les occultations. Pour un objet d’intérêt donné, le fait de disposer
d’un ensemble de masques de qualité que sont les S-VOPs de la classe-clé, permet de contrôler
ce type de suivi. Le principe est de remettre à jour le suivi grâce aux S-VOPs pertinents de la
classe-clé, aux images correspondantes. Les résultats de contrôle présentés en annexe F à la
figure F.1.c sont obtenus avec les S-VOPs issus deCb. Les différents S-VOPs de contrôle sont
repérés par un cadre bleu. Le contrôle permet également de pallier le problème d’occultation
qui constitue une des principales limites des méthodes de suivi par projection de partition.
Les résultats de la figure F.2 proposés en annexe F sont obtenus avec des S-VOPs choisis
manuellement dans C (encadrés en bleu). L’occultation est signifiée par un rectangle rouge.
Par la suite, nous comptons automatiser la sélection des S-VOPs de contrôle. Le principe
est de confronter le résultat obtenu par le suivi et le S-VOP de l’image correspondante. Si
les divergences sont trop importantes, il est possible de prendre la décision de réinitialiser le
procédé de suivi à l’aide de ce S-VOP de contrôle.
5.8 Résultats et discussion
Le premier résultat que nous présentons dans la figure 5.24 présente un aperçu des S-VOPs
extraits lors d’un plan. Il dure 3 secondes et comporte 90 images. On y voit un vélo qui rentre
dans le champ de la caméra, le traverse et en sort. La caméra est immobile mais est tenue
à la main. L’objet cycliste a une surface qui varie d’un facteur 3 environ (figure 5.24.c). Le
traitement extrait une classe-clé comportant 14 S-VOPs (figure 5.24.a). Cet exemple montre
bien que la méthode peut être utilisée comme suivi à part entière d’objets en mouvement. La
figure 5.24.b montre les images originales d’où sont extraits les S-VOPs. On remarque que
le fond est complexe et que la cycliste n’est pas bien contrastée avec le fond. Néanmoins,
sans être parfaits, les différents S-VOPs sont assez stables et descriptifs par rapport à l’objet
d’intérêt.
La seconde vidéo, nomméeChavantmontre la circulation en ville. La caméra, toujours
te-nue à la main, se comporte de diverses façons : elle est fixe, puis effectue quelques panoramiques
dans le sens des véhicules puis dans le sens contraire. Ces mouvements sont accompagnés de
zooms avant et arrière. Douze véhicules traversent le champ de la caméra de droite à gauche.
Deux personnages passent au premier plan et se croisent. La vidéo dure 18 secondes
c’est-à-dire 540 images. 12 objets-clés sont extraits (figure 5.25.a) au lieu de 14 espérés. Parmi eux, 6
voitures de couleur gris métallisé très similaires et deux piétons. La segmentation est de bonne
qualité, les objets-clés ne débordent pas sur le fond et il est assez facile par exemple de
recon-naître le modèle de chaque véhicule. Deux voitures (identiques) ne sont pas extraites. Elles
se suivent et sont partiellement occultées par des poteaux qui les "découpent" en plusieurs
morceaux (figure 5.25.b). On peut supposer qu’elles ont généré d’une part peu de S-VOPs (la
caméra ne les suit pas) et d’autre part des S-VOPs trop petits. En conséquence de quoi, les
classes correspondantes ont dû être supprimées.
La figure 5.26 présente les résumés vidéos de divers plans vidéos dont les objets sont
re-lativement difficiles à extraire que ce soit à cause de leur mouvement faible (cf. figure 5.26.a
7et 5.26.c) ou de leur forme complexe. Cependant, nous pouvons voir que les objets-clés sont
généralement de bonne qualité bien qu’ils intègrent quelques petites régions du fond. La
sé-lection de la vue supplémentaire est systématique. C’est pourquoi, si l’objet ne change pas
d’apparence la vue supplémentaire reste assez similaire à l’objet-clé.
7
Résultats obtenus sur une séquence vidéo partagée sur le site internet blip.tv, intituléeSimple Do’s and Don’ts no
15. Distribution sous licence Creative Commons : Pas d’Utilisation Commerciale - Partage des Conditions Initiales à l’Identique
(a) Les 14 S-VOPs extraits
(b) Les images originales correspondantes
(c) Mixage des images 25, 39 et 63 montrant le léger bouger de la caméra et la variation de taille
de l’objet d’intérêt
Fig. 5.24: Extraction d’un objet-clé dans la séquencevélo (les numéros des images sont
indi-qués)
Les taux de fausses et de vraies détections des zooms et des inclusions permettant de
représenter la composition de l’objet n’ont pas été étudiés. La sélection de ces vues est
présen-tée dans ce manuscrit afin de montrer les diverses possibilités de l’utilisation des classes-clés
et des S-VOPs qu’elles contiennent : une fois que l’objet-clé a été déterminé, la population
de la classe-clé associée peut être étudiée et caractérisée plus en détails. L’utilisation des
S-VOPs pertinents d’une classe clé, bien qu’elle semble expérimentalement correcte, devra être
complétée par la suite.
5.9 Conclusion
L’étape de sélection de l’objet-clé permet d’obtenir un masque binaire relativement
carac-téristique de l’objet d’intérêt. Dans le cas du résumé vidéo, il permet de focaliser l’attention du
5.9. Conclusion 141
(a) Ici, on présente un couple d’images par objet-clé : l’image originale où a été extrait l’objet-clé et le masque correspondant
(b) Les 2 voitures non détectées par la technique
Fig.5.25: Extraction de 12 objets-clés dans la séquence Chavant
spectateur sur l’objet d’intérêt tout en fournissant un masque binaire utilisable pour des
appli-cations de type indexation. Bien que n’étant pas parfaite, la qualité sémantique des objets-clés
permet dans la plupart des cas, une reconnaissance relativement aisée de l’objet d’intérêt.
En ce qui concerne la qualité de segmentation des objets-clés, bien qu’ils ne recouvrent
généralement pas totalement l’objet d’intérêt, la correspondance frontière/contour du masque
avec l’objet est de qualité suffisante pour envisager une initialisation et/ou un contrôle efficace
de suivi comme nous l’avons vu au paragraphe 5.7. Le masque de l’objet-clé fournit une
initialisation automatique intéressante pour ce type d’application dont le principal défaut est
l’initialisation manuelle. Tandis que les vues-clés permettent de contrôler le suivi et de gérer les
occultations de l’objet d’intérêt. Cette méthode de contrôle du suivi semble prometteuse mais
nécessite encore quelques améliorations quant à l’automatisation de la sélection des S-VOPs
de contrôle.
La phase d’évaluation de notre approche n’est pas encore réalisée. Comme nous avons
orienté notre recherche dans une direction peu suivie, il est difficile d’envisager une procédure
assez simple et systématique. Toutefois, il nous semble probable que les critères subjectifs sont
plus représentatifs que les critères objectifs. Cette démarche ne peut être envisagée
sérieuse-(a) Objets peu mobiles
(b) Objets en translation
(c) Objet en translation vers la caméra
5.9. Conclusion 143
Dans le document
Extraction et analyse d'objets-clés pour la structuration d'images et de vidéos
(Page 140-144)