5 Présentation visuelle du résumé - Similarité des séquences vidéo : application aux rushes

A ce stade, la liste des segments vidéo sélectionnés pour le résumé nal est dénie. Deux stratégies qui sont dépendantes de la méthode de fusion ont été adoptées par Dublin City University : soit sélectionner un petit nombre de segments longs, soit sélectionner un plus grand nombre de segments mais plus courts. Dans la vidéo nale, les segments sont uniformément ac-célérés. Dans la première conguration, les segments sont assez longs, ils ont une durée minimale de10secondes, l'accélération peut être assez rapide, une accélération de 4 fois la vitesse originale a été choisie. Dans la deuxième conguration, les segments ne dépassent pas 2 secondes, par conséquent une accélération beaucoup plus faible à été réalisée : la vitesse a été multipliée par1.5. Chaque résumé inclut en plus une chronologie en bas de l'écran. La chronologie est extrê-mement transparente pour empêcher l'occlusion de l'image mais est susamment visible pour fournir une indication utile correspondant à l'emplacement du segment en cours de lecture par rapport à la longueur initiale de la vidéo. La gure5.1 montre une image extraite d'un résumé vidéo.

Fig. 5.1 Exemple du format de présentation du résumé vidéo nal

Chapitre 6. Evaluation

6 Evaluation

6.1 Protocole

L'approche collaborative K-Space présentée à été testée grâce à la collaboration de six la-boratoires de recherche diérents : JOANNEUM Research (JRS), Technische Universität Berlin (TUB), TELECOM ParisTech (GET), l'université Queen Mary (QMUL), Dublin City University (DCU) et Eurécom. La répartition des tâches a été eectuée comme le montre le schéma6.1. La mise en place d'un tel système ne permet pas une évaluation rapide du système. Les résumés vidéos évalués sont donc basés sur la campagne d'évaluation TRECVID 2008 [Over 2007] dans laquelle39 résumés vidéos ont été évalués pour chacune de nos deux méthodes.

Fig. 6.1 Schéma global du système collaboratif K-Space.

108

6.2. Résultats

6.2 Résultats

6.2.1 Segmentation temporelle

La première étape du système consiste à fusionner diérentes segmentations, le tableau 6.1 donne un comparatif des résultats des méthodes individuelles et de la fusion.

Méthode Nombre moyen de Taille moyenne des

segments par vidéo segments (nb d'images)

Segmentation de JRS 56.125 709.500

Segmentation de Eurecom 104.075 382.613

Sous-segmentation de Eurecom 185.725 214.405

Segmentation de TUB 561.700 70.890

Segmentation commune 70.450 565.23

Tab. 6.1 Comparatif des résultats des méthodes individuelles de segmentation temporelle avec la méthode de la fusion.

Ce tableau met en évidence la notion de méthode individuelle, chaque laboratoire de recherche a proposé une méthode de segmentation basée sur ses points forts et sur sa vision du problème. Le plus grand contraste est entre la méthode proposée par JRS et celle proposée par TUB. JRS propose des segments d'une durée moyenne de 28 secondes, alors que TUB propose des segments d'un peu plus de3secondes. Nous avons proposé deux méthodes de segmentation intermédiaires, l'une proposant des segments de 15 secondes en moyenne, et l'autre d'environ 9 secondes. Le seuil xé dans la méthode de fusion se rapportant au regroupement de toutes les transitions détectées dans un voisinage de 5 secondes a limité l'impact de la segmentation de TUB dans la segmentation nale. Les segments communs ont une durée moyenne de 22 secondes, une vidéo est segmentée, en moyenne, en70 segments.

6.2.2 Sélection des segments pertinents

La deuxième étape du système consiste à fusionner diérentes listes de segments pertinents et redondants, le tableau6.2donne un comparatifs des résultats des méthodes individuelles et de la fusion. JRS sélectionne un maximum de segments : leur méthode a tendance à sélectionner les segments les plus courts. Inversement notre système se focalise sur les segments ayant le plus de contenu, il sélectionne plus facilement les longs segments. La deuxième segmentation commune se rapproche de la moyenne des méthodes individuelles. La première méthode a, quant à elle, découpé certains segments : elle a donc sélectionné plus de segments, mais d'une durée plus courte.

6.2.3 Evaluation de TRECVID

Les résultats proposés sont donc basés sur la campagne d'évaluation TRECVID 2008 [Over 2007] dans laquelle 39 résumés vidéos ont été évalués pour chacune de nos deux méthodes. Plusieurs critères sont utilisés pour l'évaluation de résumé :

DU - durée du résumé (en secondes)

XD - diérence entre la durée maximale autorisée et la durée du résumé (en seconde)

Chapitre 6. Evaluation

Méthode Nombre moyen de segments Nombre moyen de segments sélectionnés par vidéo redondants par vidéos

Sélection de JRS 13.38 63.98

Sélection de Eurecom 3.52 70.45

Sélection de QMUL 5.30 65.50

Sélection commune 1 19.67 n/a

Sélection commune 2 6.68 n/a

Tab. 6.2 Comparatif des résultats des méthodes individuelles de sélection des segments avec la méthode de la fusion.

TT - durée de l'évaluation de IN (en seconde)

VT - durée de lecture utilisée pour l'évaluation de IN (en seconde) IN - fraction d'inclusions trouvées dans le résumé (0 - 1)

JU - le résumé contient beaucoup d'images parasites : 1 (oui) - 5 (non) RE - redondances visuelles présente dans le résumé : 1 (oui) - 5 (non) TE - le résumé a un tempo/rythme agréable : 1 (oui) - 5 (non)

Le système de référence, la baseline, est la vidéo initiale accélérée50fois. Les résultats suggèrent que notre système est raisonnable, surtout étant donné le fait que cette évaluation n'est pas facilement reproductible. Pour une première soumission, il ne nous a pas été possible de vérier la qualité des systèmes individuels, même si cela reste évaluable par d'autres moyens, mais une évaluation spécique à une tâche reste la meilleure évaluation. Surtout, il a été très délicat de paramétrer correctement les systèmes de fusion.

Critères temporels

La moyenne des résultats sur les39 vidéos pour les diérents critères temporels est présentée par le graphique 6.2.

Pour la durée des résumés, la baseline donne une estimation sur la durée maximale autorisée.

La méthode utilisant des segments courts permet clairement d'inclure un maximum d'informa-tion durant le temps imparti contrairement à l'utilisad'informa-tion de segments longs. En moyenne, les participants ont des résumés plus court de 5 secondes par rapport à la baseline et K-Space2, alors que K-Space1 est plus court de 15secondes.

Concernant le durée consacrée à l'évaluation, nous pouvons nous apercevoir que pour évaluer les résumés de K-Space1 et K-Space2, les évaluateurs ont pris, en moyenne et respectivement,7et8 secondes de pause. La moyenne de l'ensemble des participants est de13 secondes et la diculté visuelle de la baseline a porté cette valeur à28 secondes. Ceci nous donne une indication sur la facilité à visualiser et interpréter le contenu de nos résumés : les évaluateurs n'ont pas besoin de faire de pause pour rééchir au contenu, contrairement à la baseline si rapide et si dicile à visualiser, que des pauses s'imposent.

Qualité visuelle du résumé

Le graphique6.3donne un comparatif entre les résultats obtenus par K-Space, la baseline et la moyenne des participants pour les critères TE (le résumé a un tempo/rythme agréable), JU (le 110

6.2. Résultats

(a) DU : Durée du résumé en secondes. (b) XD : Durée autorisée non utilisée

Fig. 6.2 Comparaison des résultats obtenus par K-Space avec la baseline et la moyenne des participants pour les critères temporels.

résumé contient beaucoup d'images parasites), et RE (le résumé vidéo contient des redondances visuelles).

La première remarque que nous pouvons faire est que les résultats obtenus pour ces trois cri-tères sont bons, et tous au dessus de la moyenne des participants. Nous avons correctement enlevé la redondance aussi bien absolue que relative. Ce qui signie que les méthodes individuelles sont de bonnes qualités et que la méthode de fusion proposée garde ces bonnes qualités, mais surtout qu'elle est robuste face aux diérentes approches proposées. Certaines méthodes individuelles sont basées sur le contenu visuel alors que d'autres se basent sur les mouvements de caméra. La fusion est de bonne qualité et réalise un bon compromis entre ces diérentes approches. Mais, il nous est, actuellement, pas possible de comparer les qualités individuelles des systèmes à celle du système fusionné. Malgré tout, nous savons que la méthode fusionnée détermine correctement les séquences parasites ainsi que la redondance. Le critère concernant TE est égal à la moyenne des participants.

Critère sur le contenu visuel

Le graphique6.4donne un comparatif entre les résultats obtenus par K-Space, la baseline et la moyenne des participants pour le IN.

Pour ce critère la baseline n'est pas idéale : l'ensemble de la vidéo est sélectionné pour être dans le résumé nal mais avec une très grande accélération : par conséquent, seules les actions

Fig. 6.3 Comparatif entre les résultats obtenus par K-Space, la baseline et la moyenne des participants pour les critères TE (le résumé a un tempo/rythme agréable), JU (le résumé contient beaucoup d'images parasites), et RE (le résumé vidéo contient des redondances visuelles).

Fig. 6.4 IN - fraction d'inclusions trouvées dans le résumé

très rapides et certains mouvements de caméra sont perdus. La fraction d'inclusions IN reste faible par rapport à la moyenne alors que nous avons vu précédemment que le contenu proposé dans les résumés n'est pas redondant. Ceci provient du fait que nous avons des segments trop longs par rapport à l'information contenue dans ceux-ci. Un découpage plus n des segments ainsi qu'une accélération plus rapide permettrait d'inclure plus de contenu et par conséquent

112

d'améliorer ce critère.

7 Conclusion

Dans ce chapitre, nous avons présenté une méthode collaborative de construction automa-tique de résumés vidéo de rushes. Notre système est organisé en deux phases : la première phase est la segmentation temporelle de la vidéo, la deuxième est l'identication des segments pertinents et redondants. Ces deux étapes majeures nous donnent une liste de segments pertinents qui est utilisée pour concaténer les segments vidéo et construire le résumé nal.

An de maximiser le contenu visuel du résumé, nous avons accéléré linéairement les résumés.

L'ecacité de cette organisation a été montrée grâce aux expérimentations : notre système est ecace en terme de reconnaissance des segments redondants. Cependant, il reste légèrement en dessous de la moyenne en ce qui concerne la sélection des segments.

Cette collaboration a conduit à de bon résultats, il reste cependant des améliorations à apporter.

En particulier, dénir plus précisément le notion de segment. Les résultats ont montré qu'il est important d'utiliser des unités de temps courtes, alors que notre segmentation commune propose des segments trop longs.

Chapitre 7. Conclusion

114

Dans le document Similarité des séquences vidéo : application aux rushes (Page 115-123)