• Aucun résultat trouvé

Expérimentation de la détection de bandes annonces

2.6 Exploitation de la détection des répétitions pour la détection de bandes

2.6.2 Expérimentation de la détection de bandes annonces

Nous ne proposons qu’une étude préliminaire de la détection de bandes annonces. Pour

cela, nous avons limité notre corpus aux semaines n°1 et n°2 sur la chaîne France 2.

Bandes annonces (BA) Semaine n°1 Semaine n°2

BA détectées 85 92

BA dans la vérité terrain 411 429

Tableau 2.10 – Détection de bandes annonces par la méthode d’analyse duclustering.

Les résultats de la détection sont présentés dans le tableau 2.10. Sur un total de

840 segments de bande annonce dans la vérité terrain, nous en avons détectées 177. Nous

n’avons pas détecté de segments de bande annonce qui ne soient pas une vraie bande

annonce. Cette méthode permet donc d’obtenir une précision de 100 % pour un rappel

d’environ 21 %. Nous avons donc bien été capable d’extraire des bandes annonces à partir

de l’exploitation de la détection des répétitions. L’intérêt de cette méthode est, suivant

nos résultats préliminaires, qu’elle est très spécifique à certaines bandes annonces. Elle

peut apporter ainsi des informations cruciales pour la classification.

Classification des segments

Sommaire

3.1 Méthodes existantes pour la classification de segments

audio-visuels . . . 68

3.2 Notre méthode de classification . . . 71

3.2.1 Présentation générale . . . . 71

3.2.2 Notions de base . . . . 73

3.2.3 Module de description logique . . . . 74

3.2.4 Module d’apprentissage . . . . 81

3.2.5 Module de classification . . . . 88

3.3 Résultats . . . 94

3.3.1 Contexte expérimental . . . . 94

3.3.2 Protocole d’évaluation . . . . 95

3.3.3 Expériences 1 : classification des segments en segments de

pro-gramme et en segments d’inter-propro-gramme . . . . 96

3.3.4 Expériences 2 : classification des segments en segments de

pro-gramme long et en segments qui ne sont pas des propro-grammes longs105

3.3.5 Expériences 3 : classification des segments en catégories

d’inter-programmes . . . 106

3.3.6 Synthèse . . . 108

C

e chapitrerappelons le fonctionnement général de notre approche de délinéarisation. Notre ap-traite du second niveau de délinéarisation. Pour situer ce niveau, nous

proche analyse des portions de flux. Ces portions sont découpées en segments à partir de

la détection des répétitions. Les segments sont des occurrences de répétitions ou bien des

morceaux de flux entre deux occurrences identifiées. Ils sont issus de répétitions détectées

dans les portions et leur historique comme cela est illustré dans la figure 3.1 et expliqué

dans la section 2.3.5. Au final, le but de ce chapitre est de proposer une méthode de

classification des segments ainsi formés.

La classification des segments vise à différencier les occurrences des répétitions

d’inter-programmes des autres occurrences de répétitions. Elle vise également à identifier les

segments de programmes et les segments d’inter-programmes qui ne sont pas répétés.

Elle permet même de détecter des segments de publicités, de bandes annonces ou de

parrainages. Cette classification a pour objectif de révéler ainsi la structure sous-jacente

d’un flux en programmes et en inter-programmes.

Dans l’optique d’une délinéarisation automatique, notre méthode de classification est

soumise aux contraintes de généricité, d’efficacité, d’automaticité et de continuité.

L’organisation de ce chapitre se décline en trois sections. La première section présente

les méthodes existantes liées à la classification de segments audiovisuels. La deuxième

section présente en détail notre technique de classification de segments. Cette technique est

basée sur la programmation logique inductive qui est dans un premier temps expliquée. La

troisième section donne les résultats de l’évaluation de notre méthode de classification de

segments afin de classer les segments de programme et les segments d’inter-programmes.

Cette section explore davantage notre méthode de classification pour classer les

inter-programmes suivant leurs différentes catégories telles les publicités, les bandes annonces

ou les parrainages.

Figure 3.1 – Niveau 2 de délinéarisation : classification des segments.

3.1 Méthodes existantes pour la classification de segments

audiovisuels

Nous nous intéressons principalement à la classification en genre des segments

audio-visuels et, plus précisément, à la classification des segments d’un flux TV dans les genres

« programmes » ou « inter-programmes ». Cette dernière tâche est réalisée naturellement

par les téléspectateurs. Bien qu’il puisse y avoir quelques ambiguïtés visuelles entre

cer-tains programmes et cercer-tains inter-programmes, le contexte de diffusion des contenus aide

les téléspectateurs. Ainsi, si un téléspectateur visionne une publicité au cours d’une

émis-sion d’analyse des publicités

1

, il sait si cette publicité appartient ou non à l’émission.

1. Par exemple, l’émission hebdomadaire « Culture Pub » diffusée par la chaîne française M6 entre les

années 1987 et 2005.

Le téléspectateur se base sur les jingles ou les annonces du présentateur. Il peut

égale-ment reconnaître simpleégale-ment une publicité habituelle. Les deux classes « programmes » et

« inter-programmes » sont donc a priori des genres de diffusions bien définis.

Les caractéristiques telles la présence ou l’absence de logo, les images monochromes

et les silences environnants, etc. décrivent les contextes dans lesquels les segments

ap-paraissent. Néanmoins, nous avons déjà vu dans le chapitre 1 que les méthodes les plus

efficaces pour la détection des inter-programmes n’emploient pas ces dernières

caractéris-tiques. Celles-ci sont généralement trop spécifiques aux chaînes à traiter. Pour les mêmes

raisons, il est difficile d’identifier si un segment appartient au genre « inter-programme »

uni-quement à partir de ces caractéristiques. La propriété de répétition des inter-programmes

est généralement préférée à ces caractéristiques. Cependant, toutes les répétitions ne sont

pas des inter-programmes. Pour détecter les inter-programmes parmi des occurrences de

répétitions, les méthodes de détection des répétitions [CBF06, ZZZY08] définissent

empiri-quement des seuils sur la durée des occurrences des répétitions obtenues. Nous montrerons

dans les expériences de la section 3.3 que ces seuils sur la durée ne suffisent pas à

diffé-rencier un inter-programme d’une partie répétée d’un programme.

De manière plus générale, les principales techniques de classification automatique en

genre de segments audiovisuels reposent sur des caractéristiques multimodales [BC08,

TV07, MM08]. Ces caractéristiques multimodales sont souvent textuelles, auditives et/ou

visuelles. Parmi les caractéristiques visuelles, les couleurs, les visages, les contours, les

textures ou les mouvements sont souvent choisis. Pour modéliser les informations

tem-porelles de ces caractéristiques dans les vidéos, les modèles de Markov cachés (HMM –

Hidden Markov Model) sont particulièrement adaptés [DAW00, LDJ03]. Certaines

mé-thodes [YSS02] apprennent des règles logiques de classification de type « Si. . .alors. . .».

Ces règles peuvent être construites à partir d’un arbre de décision appris grâce à

l’algo-rithme C4.5 [Mit97]. Zhou et al. [ZDK02] utilisent de telles règles pour structurer des

vidéos de basket. L’ensemble de ces approches reste cependant limité à un nombre fini

de genres très particuliers de programmes ou d’inter-programmes. Parmi les genres

consi-dérés, nous retrouvons généralement la publicité, les journaux, les dessins-animés et le

sport. Comme nous l’avons expliqué dans le chapitre 1, les publicités peuvent en effet

posséder des caractéristiques très spécifiques. Les journaux sont aussi des émissions très

particulières avec des enchaînements de plans présentateurs et de reportages. Les dessins

animés possèdent des propriétés de couleurs et de formes très fortes. Enfin, les évènements

sportifs se déroulent généralement autour d’un environnement statique comme un terrain

de tennis ou de foot.

Contrairement à ces quelques genres très particuliers, le genre « programme » est trop

hétérogène [RMX

+

02] pour être décrit simplement par un ensemble de caractéristiques

multimodales. Ce sont des dessins animés, des séries comiques très courtes, des

documen-taires, des films, des séries classiques, des jeux de type télé réalité, des magazines, des

concerts, du théâtre, des journaux, etc. Médiamétrie

2

[Pol07] etThe moving image genre

form guide [THL98] définissent plus d’une centaine de genres différents de programmes.

Cette hétérogénéité fait que les contenus de programmes peuvent prendre pratiquement

toutes les formes visuelles et auditives dont parfois celles des inter-programmes. Il existe,

ainsi, des programmes qui contiennent des fragments ressemblant à des inter-programmes.

2. Médiamétrie est une société indépendante et reconnue, chargée de la mesure d’audience des médias

audiovisuels français.

Une émission musicale peut, en effet, diffuser de nouveaux clips qui réapparaissent lors

des publicités à propos des nouveaux albums. Nous pouvons trouver aussi des émissions

sur les publicités ou quelques films dans le domaine de la publicité

3

. Les exemples des

clips musicaux et des publicités sont rares mais ils existent. De manière inverse, certains

inter-programmes contiennent des fragments de programmes. C’est le cas des bandes

an-nonces qui présentent généralement des parties des programmes à venir. La présence de

fragments de programmes dans les bandes annonces est un problème fréquent non

négli-geable. Les bandes annonces peuvent représenter jusqu’à 25 % (cf. annexe A) de l’ensemble

des inter-programmes. Ce problème a d’ailleurs été soulevé par Naturel [Nat07].

La classification en programmes et en inter-programmes requiert donc des

caracté-ristiques autres que des caractécaracté-ristiques multimodales seules. Les autres caractécaracté-ristiques

recherchées peuvent être des caractéristiques relationnelles. Quelques travaux de

classifica-tion de plans vidéo utilisent des règles représentant des relaclassifica-tions entre les caractéristiques

multimodales. Snoek et Worring [SW05b] définissent des relations temporelles entre les

segments issus de l’audio, de la video ou du texte. Les relations temporelles décrivent si

un segment A précède, chevauche ou appartient à un autre segment B. Ces relations sont

introduites dans quelques systèmes d’apprentissage (C4.5 ou SVM – Support Vector

Ma-chine) pour classer des plans vidéo en différents évènements. Les auteurs montrent que ces

relations temporelles améliorent l’utilisation des caractéristiques multimodales. Doradoet

al. [DCI04] utilisent la logique floue pour décrire des caractéristiques audiovisuelles sous

la forme de caractéristiques logiques. Ces caractéristiques logiques sont ensuite liées à des

concepts sémantiques (présence d’une personne, reportage, etc. ). Pour cela des règles

d’associations sont apprises automatiquement. Elles permettent de construire des règles

logiques simples pour classer les plans des journaux télévisés en plans « présentateur » et

en plans « reportages ». Suivant le même objectif, Carrive [Car00] définit d’abord une

hié-rarchie de concepts sémantiques. Ces concepts déterminent par exemple la présence d’un

visage en gros plan, la présence de parole ou la présence de sous-titres sur l’image. Il établit

ensuite des relations temporelles entre les différents segments vidéo et audio. Ces concepts

et ces relations temporelles lui permettent de définir manuellement des règles logiques

pour classer les plans vidéo. Un plan interview est un segment de parole qui chevauche un

segment d’un visage en gros plan. Ces dernières méthodes classent des segments de plans

à partir de relations parfois logiques et parfois temporelles entre les caractéristiques

au-diovisuelles. Leurs applications traitent cependant de la structuration intra-programme.

Elles ne sont pas directement adaptées à notre sujet.

La classification de segments audiovisuels ne se limite pas à la classification en genre des

segments. Par exemple, dans le domaine de l’indexation, des méthodes [GPR05, SCN

+

05]

classent les segments suivant ce qu’ils contiennent, par exemple des paysages, des voitures,

des humains, de la météo, etc. Ces méthodes définissent pour cela des concepts sémantiques

à partir de caractéristiques multimodales. Cependant, ces concepts permettent seulement

de décrire les contenus des segments audiovisuels.

Par rapport à ces travaux, nous proposons, tout d’abord, dans notre approche

d’uti-liser d’autres caractéristiques comme les propriétés des distributions des occurrences des

répétitions. Nous ajoutons, ensuite, à ces propriétés des dépendances « contextuelles » et

« relationnelles ». Toutes ces nouvelles caractéristiques sont modélisées et utilisées à

vers des règles logiques apprises automatiquement. Au final, nous appliquons ces règles

pour la classification en genre des segments. Notre méthode est expliquée en détail dans

la section suivante.