• Aucun résultat trouvé

2.3 Travaux existant sur la segmentation en scènes

2.3.3 Approches hybrides

Vidéo

Segmentation en plans P1 P2 P3 P4 P5 P6 P7 P8 P9

Regroupement des plans C1 C2 C3 C4 C5 C6 Création du STG C1 C2 C3 C4 C5 C6 Segmentation en scènes Etape E1 Etape E2 Etape E3 Etape E4 Liste des plans

Groupes de plans

Graphe de Transition de Scènes

Scène 1 Scène 2

Scène 3

Figure 2.21 – Illustration de la méthode de segmentation par graphes proposée par Yeung et al. [Yeung 1998]

Dans cette section, nous nous intéressons aux méthodes de segmentation en scènes ba- sées sur une approche hybride impliquent un regroupement de séquences et une recherche de frontières.

Le premier algorithme suivant une approche hybride pour la segmentation en scènes a été proposé par Yeung et al. [Yeung 1998] qui utilisent la notion de Scene Transition Graph (STG) dont le principe est résumé dans la Figure2.21. La construction du STG se déroule en 4 étapes notées E1 à E4 sur la figure. En partant de la vidéo, l’algorithme commence par une étape de segmentation de la vidéo en plans (étape E1). L’étape suivante consiste à regrouper les plans similaires visuellement (étape E2). Pour ce faire, un regroupement hiérarchique des plans du type complete-link est effectué en considérant qu’il est impos- sible de regrouper deux plans si leur distance temporelle est plus grande qu’un seuil ∆t. Le regroupement se termine lorsque la distance entre deux groupes de plans est inférieure

à une mesure de similarité ∆d. La mesure de similarité entre les plans est effectuée par comparaison d’histogrammes de couleur sur une image caractéristique du plan. L’étape suivante (étape E3 de la Figure2.21) est l’étape de création du STG. Les noeuds du STG sont les groupes de plans visuellement similaires issus de l’étape précédente, et les arcs représentent le flot temporel de l’histoire (temporal story flow). Un arc est présent entre deux noeuds seulement si un plan représenté par le premier noeud précède directement un plan représenté par le second. Les arcs de coupures (cut edges) sont recherchés dans ce STG pour le découper en plusieurs sous-graphes disjoints. Un arc du graphe est considéré comme un arc de coupure si la suppression de cet arc donne deux graphes disjoints. On considère alors que chaque sous-graphe est une scène (étape E4).

Le STG permet de représenter le flot temporel de l’histoire racontée dans une vidéo. La Figure 2.22 montre quelques exemples de STG que l’on peut obtenir pour différents types de vidéos. Dans ces exemples, chaque sommet du graphe représente un groupe de plans, et la lettre associée à chaque groupe correspond à un indicatif de scène annotée. En (a), on observe une histoire linéaire. En (b), l’exemple illustre deux évènements repré- sentés par les noeuds B1 à B3 pour l’un et D1 à D3 pour l’autre. En (c), l’arrangement

des groupes de plans (noeuds du graphe) montre des allers-retours entre des plans visuel- lement similaires. Ce type de structure illustre un enchaînement de plans représentant un champ/contrechamp (comme un dialogue). En (d), on observe la description de plusieurs évènements centrés sur un même groupe de plan (noeud A).

Figure 2.22 – Exemples de STG d’après Ngo et al. [Ngo 2003]

La méthode proposée par Yeung et al. pour découper le graphe consiste à rechercher et supprimer les arcs de coupures du graphe. Cette méthode permet d’isoler les scènes pour les exemples (a), (b) et (c) de la Figure 2.22, mais pas pour l’exemple (d). La seule façon de résoudre ce problème est de reconstruire un STG en modifiant le seuil ∆t, de manière à réduire la taille des groupes de plans similaires et donc augmenter ce nombre de groupes pour que le groupe A ne soit plus central. Ngo et al. [Ngo 2003] ont

2.3. Travaux existant sur la segmentation en scènes repris le principe du STG, mais pour résoudre ce problème et être moins dépendants de ce seuil ∆t, ils proposent d’utiliser l’algorithme « normalized cut » [Shi 2000] pour le partitionnement du graphe, et ainsi permettre d’isoler des groupes de noeuds qui ne sont pas connectés au reste du graphe uniquement par des cut-edges. Benini et al. [Benini 2005] ont aussi utilisé les STG pour découper des films et un journal télévisé, mais la méthode de regroupement des plans se base sur un processus de quantification vectorielle dans l’espace de couleur LUV [Benini 2006]. Ils proposent une modélisation par Modèles de Markov pour classer les scènes en trois catégories : dialogue, déplacement et hybride (déplacement + dialogue) [Benini 2008].

Sidiropoulos et al. [Sidiropoulos 2009] proposent deux méthodes pour améliorer l’al- gorithme du STG en fusionnant des descripteurs audio et vidéo. La première méthode implique l’utilisation d’une méthode de segmentation et regroupement en locuteurs de la bande audio. Après avoir réalisé un STG basé sur des descripteurs visuels, ils considèrent que si un même locuteur est détecté dans deux noeuds connectés, alors il faut fusionner ces deux noeuds. Ils proposent une deuxième approche qui est précisée dans leurs travaux plus récents [Sidiropoulos 2011] appelée « Generalized Scene Transition Graph (GSTG) ». La génération d’un STG dépend de la valeur donnée aux seuils ∆t et ∆d. Ils proposent de générer un grand nombre de STG à partir de différentes méthodes de calcul de simi- larités des plans (visuelles, audio ou basées sur la détection de concepts), et en faisant varier aléatoirement les seuils ∆t et ∆d. Chaque paire (∆t, ∆d) associée à une méthode de calcul des similarités donne une segmentation en scènes différente. Le GSTG consiste à associer à chaque transition de plan le ratio de STG qui déterminent que cette transition est une transition de scène (cf. Figure 2.23). Les transitions finales sont déterminées en optimisant un seuil θ tel que si le ratio de STG considérant qu’une transition de plan est une transition de scène est supérieur à θ, alors cette transition de plan est une transition de scènes (lignes vertes sur la Figure 2.23).

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 seuil θ

Indice des transitions de plan

P ropo rt ion de s egmen tat ion s co n si dér a n t u n e fr ont ièr e de pl a n c omm e u n e fr o n ti èr e de sc èn e

Bredin [Bredin 2012] propose une version étendue du GSTG en utilisant un descripteur basé sur la transcription automatique de la parole. Il propose d’utiliser une grille dense de paramètres pour ∆t et ∆d, plutôt que de sélectionner des valeurs aléatoires de manière à rendre le GSTG déterministe.

D’après Fabro et al. [Del Fabro 2013], la segmentation en scènes utilisant des graphes fonctionne mieux pour des vidéos proposant des environnements réduits, et particulière- ment des vidéos avec des scènes similaires qui se répètent comme pour les journaux télé- visés ou les talk-shows. La précision est moins bonne pour des vidéos montrant beaucoup de mouvements. Les films proposent un environnement très dynamique, et les réalisateurs utilisent des techniques de caméra et différents effets visuels pour attirer l’attention du spectateur. Ils considèrent qu’il est plus difficile de modéliser un graphe de scène pour ce type de vidéo.

Cependant, beaucoup de méthodes présentées dans cette section ont été développées pour des films, et il n’existe pas à notre connaissance de comparaison formelle des dif- férentes méthodes de segmentation en scènes qui pourraient étayer cette affirmation. De plus, les évaluations des différentes méthodes de segmentation sont difficilement compa- rables. La section suivante discute justement des différentes méthodes d’évaluation utili- sées dans cet état de l’art.

Les méthodes suivant des approches hybrides sont résumées dans le Tableau 2.3.

Type de

données Taille corpus Descripteurs Evaluation

[Yeung 1998] Série TV

1 épisode/20 min 10 scènes (≈ 120 sec / scène)

Couleur Description des

résultats

[Ngo 2003] Vidéos per-

sonnelles 5 vidéos/137 min 157 scènes (≈ 52 sec / scène) Couleur Texture Rappel (90%) Précision (87%) [Benini 2005] Film 4 vidéos/107 min 60 scènes (≈ 107 sec / scène) Couleur Couverture (85,2%) Overflow (2,2%) [Sidiropoulos 2011] Film

Documentaire 24 vidéos/939 scènes

Couleur Concepts Audio Couverture (88,6%) Overflow (13,2%) [Bredin 2012] Série 8 épisodes/5 h 306 scènes (≈ 59 sec / scène) Couleur Audio Texte Rappel (48,8%) Précision (62,2%) F-mesure (53,9%)

2.3. Travaux existant sur la segmentation en scènes