Limites des systèmes de segmentation et regroupement en locuteurs

3.3 Qui ? Similarité entre les personnages

3.3.2 Limites des systèmes de segmentation et regroupement en locuteurs

Nous nous reposons sur le système de segmentation et regroupement en locuteurs décrit dans [Barras 2006]. Il permet de retrouver les tours de parole des locuteurs, et d’associer un identifiant unique à tous les tours de parole du même locuteur. Comme pour la distance dASR_{, l’utilisation des locuteurs pour mesurer une distance entre deux séquences est limitée}

par la qualité de la méthode utilisée pour segmenter et regrouper en locuteurs.

Pour mesurer les erreurs produites par un tel système sur des épisodes de séries té- lévisées, une annotation précise des tours de parole pour les quatre premiers épisodes de la série Ally McBeal a été effectuée. Plusieurs valeurs ont été mesurées pour calculer la qualité de la segmentation et du regroupement en locuteurs :

• La pureté qui mesure à quel point les tours de paroles associés à un même locuteur sont homogènes.

• La couverture qui mesure à quel point tous les tours de parole d’un même locuteur de la vérité-terrain ont été assignés à un même locuteur par le système automatique. • Le DER (Diarization Error Rate) [Fiscus 2004] qui mesure la performance globale (taux d’erreur) d’un système de segmentation et regroupement en locuteurs. Son comportement est étudié en détail au Chapitre 5, page125.

Les résultats obtenus par le système de segmentation et regroupement en locuteurs sur les quatre épisodes annotés sont résumés dans le Tableau 3.2.

DER pureté couverture

épisode 1 78% 79% 57%

épisode 2 74% 67% 43%

épisode 3 63% 80% 55%

épisode 4 67% 80% 52%

Table 3.2 – Évaluation de la segmentation et regroupement en locuteurs pour quatre épisodes de la série Ally McBeal.

Ces résultats montrent un taux d’erreur moyen très important. Cependant, la pureté est correcte (entre 67% et 80%), pour une couverture basse (entre 43% et 57%). Ce qui signifie qu’il y a sur-segmentation des locuteurs : les locuteurs de la vérité-terrain sont « découpés » en plusieurs « sous-locuteurs ».

Le système de segmentation et regroupement en locuteur utilise une première étape de détection de parole/non parole. Elle permet de déterminer quels segments du flux audio contiennent de la parole ou non. Cependant, cette étape est aussi source d’erreurs, et le taux d’erreur pour la détection de parole/non parole est en moyenne de 26%, avec 11% de fausses alarmes (segments de vidéo ne contenant pas de parole mais détectés comme tel) et 15% de détection ratée sur l’ensemble des quatre épisodes.

3.3. Qui ? Similarité entre les personnages Comme le système utilisé pour la transcription automatique de la parole, le système de segmentation et regroupement en locuteurs que nous avons utilisé [Barras 2006] a été optimisé pour des journaux télévisés ou provenant de la radio. Ainsi, ses performances sur des épisodes de séries télévisées sont détériorées à cause des mêmes facteurs que ceux détaillés pour le système de transcription.

Chapitre 4

Segmentation en scènes

Segmentation en plans Regroupement des scènes en histoires

Vidéo Plans Segmentation Scènes Histoires Applications

en scènes

Figure 4.1 – Différents niveaux de structuration d’une vidéo : focus sur la segmentation en scène.

Comme illustré dans la Figure 4.1, le niveau de structuration d’un épisode de série télévisée étudié dans ce chapitre concerne la segmentation en scènes. La définition d’une scène détaillée au Chapitre1 (page 11) est la suivante :

Définition d’une scène

• Une scène est une suite de plans consécutifs.

• Une scène décrit un unique évènement (ou aucun évènement). • La scène respecte une continuité temporelle.

• La scène respecte une continuité spatiale dictée par des règles de montage précises.

Cette définition explique qu’une scène est une suite de plans consécutifs. Ainsi, une frontière entre deux scènes est aussi une transition entre deux plans. La frontière f entre les scènes si et si+1 est donc la frontière entre le dernier plan de si et le premier plan

de si+1. La tâche de segmentation en scènes peut donc être définie comme une tâche de

Tâche de segmentation en scènes

Soit F l’ensemble des frontières de plans de la vidéo. La tâche de segmentation en scènes est une tâche de classification C des frontières de plans f ∈ F telle que

C : F → {0, 1}

f →

 



1 si f est une frontière entre deux scènes 0 sinon

(4.1)

La majorité des méthodes présentées dans l’état de l’art (Section2.3, page50) se foca- lisent sur la composante vidéo des documents audiovisuels pour réaliser la segmentation en scènes. Parmi celles qui emploient la composante audio, peu d’entre elles utilisent la connaissance sur la présence des locuteurs pour décrire des segments audiovisuels dans le but de réaliser la segmentation en scènes.

Ainsi, l’observation 1 énoncée au chapitre précédent et qui définit la couleur comme une information pertinente pour la segmentation en scènes a déjà été étudiée. Cependant, la définition de la scène est fortement liée à la présence des personnages, puisqu’elle consi- dère qu’une scène décrit un événement unique, qui est lui même lié aux interactions des personnages avec leur environnement. Ainsi, en se basant sur l’observation 4 présentée au chapitre précédent, qui stipule que les personnages présents dans deux scènes consécutives sont généralement différents, il doit être possible d’utiliser l’information fournie sur les personnages pour réaliser une segmentation en scènes.

Notre contribution consiste à étudier l’information fournie par un système de segmentation et regroupement en locuteurs pour développer des méthodes de segmentation en scènes. Un tel système fournit une information sur les locuteurs (personnages parlant) de façon à savoir si c’est le même locuteur qui parle dans 2 segments de parole, appelés Tours de parole (T o).

Ce chapitre est découpé en quatre sections :

• La première section présente le protocole expérimental utilisé pour valider nos ex- périences.

• La seconde section étudie l’utilisation des tours de parole détectés par un système de segmentation et regroupement en locuteurs pour la segmentation en scènes (segmentation monomodale).

• La troisième s’intéresse à la fusion de segmentations produites par la méthode basée sur les tours de parole, et une méthode de segmentation basée sur des histogrammes de couleur [Yeung 1998].

• Dans la dernière section, nous étudions l’amélioration d’une méthode de segmentation de l’état de l’art [Sidiropoulos 2011] en utilisant les tours de parole des locuteurs.

4.1. Protocole expérimental

4.1 Protocole expérimental

Dans le document Extraction multimodale de la structure narrative des épisodes de séries télévisées (Page 98-103)