2.6 Exploitation de la détection des répétitions pour la détection de bandes
2.6.2 Expérimentation de la détection de bandes annonces
Nous ne proposons qu’une étude préliminaire de la détection de bandes annonces. Pour
cela, nous avons limité notre corpus aux semaines n°1 et n°2 sur la chaîne France 2.
Bandes annonces (BA) Semaine n°1 Semaine n°2
BA détectées 85 92
BA dans la vérité terrain 411 429
Tableau 2.10 – Détection de bandes annonces par la méthode d’analyse duclustering.
Les résultats de la détection sont présentés dans le tableau 2.10. Sur un total de
840 segments de bande annonce dans la vérité terrain, nous en avons détectées 177. Nous
n’avons pas détecté de segments de bande annonce qui ne soient pas une vraie bande
annonce. Cette méthode permet donc d’obtenir une précision de 100 % pour un rappel
d’environ 21 %. Nous avons donc bien été capable d’extraire des bandes annonces à partir
de l’exploitation de la détection des répétitions. L’intérêt de cette méthode est, suivant
nos résultats préliminaires, qu’elle est très spécifique à certaines bandes annonces. Elle
peut apporter ainsi des informations cruciales pour la classification.
Classification des segments
Sommaire
3.1 Méthodes existantes pour la classification de segments
audio-visuels . . . 68
3.2 Notre méthode de classification . . . 71
3.2.1 Présentation générale . . . . 71
3.2.2 Notions de base . . . . 73
3.2.3 Module de description logique . . . . 74
3.2.4 Module d’apprentissage . . . . 81
3.2.5 Module de classification . . . . 88
3.3 Résultats . . . 94
3.3.1 Contexte expérimental . . . . 94
3.3.2 Protocole d’évaluation . . . . 95
3.3.3 Expériences 1 : classification des segments en segments de
pro-gramme et en segments d’inter-propro-gramme . . . . 96
3.3.4 Expériences 2 : classification des segments en segments de
pro-gramme long et en segments qui ne sont pas des propro-grammes longs105
3.3.5 Expériences 3 : classification des segments en catégories
d’inter-programmes . . . 106
3.3.6 Synthèse . . . 108
C
e chapitrerappelons le fonctionnement général de notre approche de délinéarisation. Notre ap-traite du second niveau de délinéarisation. Pour situer ce niveau, nous
proche analyse des portions de flux. Ces portions sont découpées en segments à partir de
la détection des répétitions. Les segments sont des occurrences de répétitions ou bien des
morceaux de flux entre deux occurrences identifiées. Ils sont issus de répétitions détectées
dans les portions et leur historique comme cela est illustré dans la figure 3.1 et expliqué
dans la section 2.3.5. Au final, le but de ce chapitre est de proposer une méthode de
classification des segments ainsi formés.
La classification des segments vise à différencier les occurrences des répétitions
d’inter-programmes des autres occurrences de répétitions. Elle vise également à identifier les
segments de programmes et les segments d’inter-programmes qui ne sont pas répétés.
Elle permet même de détecter des segments de publicités, de bandes annonces ou de
parrainages. Cette classification a pour objectif de révéler ainsi la structure sous-jacente
d’un flux en programmes et en inter-programmes.
Dans l’optique d’une délinéarisation automatique, notre méthode de classification est
soumise aux contraintes de généricité, d’efficacité, d’automaticité et de continuité.
L’organisation de ce chapitre se décline en trois sections. La première section présente
les méthodes existantes liées à la classification de segments audiovisuels. La deuxième
section présente en détail notre technique de classification de segments. Cette technique est
basée sur la programmation logique inductive qui est dans un premier temps expliquée. La
troisième section donne les résultats de l’évaluation de notre méthode de classification de
segments afin de classer les segments de programme et les segments d’inter-programmes.
Cette section explore davantage notre méthode de classification pour classer les
inter-programmes suivant leurs différentes catégories telles les publicités, les bandes annonces
ou les parrainages.
Figure 3.1 – Niveau 2 de délinéarisation : classification des segments.
3.1 Méthodes existantes pour la classification de segments
audiovisuels
Nous nous intéressons principalement à la classification en genre des segments
audio-visuels et, plus précisément, à la classification des segments d’un flux TV dans les genres
« programmes » ou « inter-programmes ». Cette dernière tâche est réalisée naturellement
par les téléspectateurs. Bien qu’il puisse y avoir quelques ambiguïtés visuelles entre
cer-tains programmes et cercer-tains inter-programmes, le contexte de diffusion des contenus aide
les téléspectateurs. Ainsi, si un téléspectateur visionne une publicité au cours d’une
émis-sion d’analyse des publicités
1, il sait si cette publicité appartient ou non à l’émission.
1. Par exemple, l’émission hebdomadaire « Culture Pub » diffusée par la chaîne française M6 entre les
années 1987 et 2005.
Le téléspectateur se base sur les jingles ou les annonces du présentateur. Il peut
égale-ment reconnaître simpleégale-ment une publicité habituelle. Les deux classes « programmes » et
« inter-programmes » sont donc a priori des genres de diffusions bien définis.
Les caractéristiques telles la présence ou l’absence de logo, les images monochromes
et les silences environnants, etc. décrivent les contextes dans lesquels les segments
ap-paraissent. Néanmoins, nous avons déjà vu dans le chapitre 1 que les méthodes les plus
efficaces pour la détection des inter-programmes n’emploient pas ces dernières
caractéris-tiques. Celles-ci sont généralement trop spécifiques aux chaînes à traiter. Pour les mêmes
raisons, il est difficile d’identifier si un segment appartient au genre « inter-programme »
uni-quement à partir de ces caractéristiques. La propriété de répétition des inter-programmes
est généralement préférée à ces caractéristiques. Cependant, toutes les répétitions ne sont
pas des inter-programmes. Pour détecter les inter-programmes parmi des occurrences de
répétitions, les méthodes de détection des répétitions [CBF06, ZZZY08] définissent
empiri-quement des seuils sur la durée des occurrences des répétitions obtenues. Nous montrerons
dans les expériences de la section 3.3 que ces seuils sur la durée ne suffisent pas à
diffé-rencier un inter-programme d’une partie répétée d’un programme.
De manière plus générale, les principales techniques de classification automatique en
genre de segments audiovisuels reposent sur des caractéristiques multimodales [BC08,
TV07, MM08]. Ces caractéristiques multimodales sont souvent textuelles, auditives et/ou
visuelles. Parmi les caractéristiques visuelles, les couleurs, les visages, les contours, les
textures ou les mouvements sont souvent choisis. Pour modéliser les informations
tem-porelles de ces caractéristiques dans les vidéos, les modèles de Markov cachés (HMM –
Hidden Markov Model) sont particulièrement adaptés [DAW00, LDJ03]. Certaines
mé-thodes [YSS02] apprennent des règles logiques de classification de type « Si. . .alors. . .».
Ces règles peuvent être construites à partir d’un arbre de décision appris grâce à
l’algo-rithme C4.5 [Mit97]. Zhou et al. [ZDK02] utilisent de telles règles pour structurer des
vidéos de basket. L’ensemble de ces approches reste cependant limité à un nombre fini
de genres très particuliers de programmes ou d’inter-programmes. Parmi les genres
consi-dérés, nous retrouvons généralement la publicité, les journaux, les dessins-animés et le
sport. Comme nous l’avons expliqué dans le chapitre 1, les publicités peuvent en effet
posséder des caractéristiques très spécifiques. Les journaux sont aussi des émissions très
particulières avec des enchaînements de plans présentateurs et de reportages. Les dessins
animés possèdent des propriétés de couleurs et de formes très fortes. Enfin, les évènements
sportifs se déroulent généralement autour d’un environnement statique comme un terrain
de tennis ou de foot.
Contrairement à ces quelques genres très particuliers, le genre « programme » est trop
hétérogène [RMX
+02] pour être décrit simplement par un ensemble de caractéristiques
multimodales. Ce sont des dessins animés, des séries comiques très courtes, des
documen-taires, des films, des séries classiques, des jeux de type télé réalité, des magazines, des
concerts, du théâtre, des journaux, etc. Médiamétrie
2[Pol07] etThe moving image genre
form guide [THL98] définissent plus d’une centaine de genres différents de programmes.
Cette hétérogénéité fait que les contenus de programmes peuvent prendre pratiquement
toutes les formes visuelles et auditives dont parfois celles des inter-programmes. Il existe,
ainsi, des programmes qui contiennent des fragments ressemblant à des inter-programmes.
2. Médiamétrie est une société indépendante et reconnue, chargée de la mesure d’audience des médias
audiovisuels français.
Une émission musicale peut, en effet, diffuser de nouveaux clips qui réapparaissent lors
des publicités à propos des nouveaux albums. Nous pouvons trouver aussi des émissions
sur les publicités ou quelques films dans le domaine de la publicité
3. Les exemples des
clips musicaux et des publicités sont rares mais ils existent. De manière inverse, certains
inter-programmes contiennent des fragments de programmes. C’est le cas des bandes
an-nonces qui présentent généralement des parties des programmes à venir. La présence de
fragments de programmes dans les bandes annonces est un problème fréquent non
négli-geable. Les bandes annonces peuvent représenter jusqu’à 25 % (cf. annexe A) de l’ensemble
des inter-programmes. Ce problème a d’ailleurs été soulevé par Naturel [Nat07].
La classification en programmes et en inter-programmes requiert donc des
caracté-ristiques autres que des caractécaracté-ristiques multimodales seules. Les autres caractécaracté-ristiques
recherchées peuvent être des caractéristiques relationnelles. Quelques travaux de
classifica-tion de plans vidéo utilisent des règles représentant des relaclassifica-tions entre les caractéristiques
multimodales. Snoek et Worring [SW05b] définissent des relations temporelles entre les
segments issus de l’audio, de la video ou du texte. Les relations temporelles décrivent si
un segment A précède, chevauche ou appartient à un autre segment B. Ces relations sont
introduites dans quelques systèmes d’apprentissage (C4.5 ou SVM – Support Vector
Ma-chine) pour classer des plans vidéo en différents évènements. Les auteurs montrent que ces
relations temporelles améliorent l’utilisation des caractéristiques multimodales. Doradoet
al. [DCI04] utilisent la logique floue pour décrire des caractéristiques audiovisuelles sous
la forme de caractéristiques logiques. Ces caractéristiques logiques sont ensuite liées à des
concepts sémantiques (présence d’une personne, reportage, etc. ). Pour cela des règles
d’associations sont apprises automatiquement. Elles permettent de construire des règles
logiques simples pour classer les plans des journaux télévisés en plans « présentateur » et
en plans « reportages ». Suivant le même objectif, Carrive [Car00] définit d’abord une
hié-rarchie de concepts sémantiques. Ces concepts déterminent par exemple la présence d’un
visage en gros plan, la présence de parole ou la présence de sous-titres sur l’image. Il établit
ensuite des relations temporelles entre les différents segments vidéo et audio. Ces concepts
et ces relations temporelles lui permettent de définir manuellement des règles logiques
pour classer les plans vidéo. Un plan interview est un segment de parole qui chevauche un
segment d’un visage en gros plan. Ces dernières méthodes classent des segments de plans
à partir de relations parfois logiques et parfois temporelles entre les caractéristiques
au-diovisuelles. Leurs applications traitent cependant de la structuration intra-programme.
Elles ne sont pas directement adaptées à notre sujet.
La classification de segments audiovisuels ne se limite pas à la classification en genre des
segments. Par exemple, dans le domaine de l’indexation, des méthodes [GPR05, SCN
+05]
classent les segments suivant ce qu’ils contiennent, par exemple des paysages, des voitures,
des humains, de la météo, etc. Ces méthodes définissent pour cela des concepts sémantiques
à partir de caractéristiques multimodales. Cependant, ces concepts permettent seulement
de décrire les contenus des segments audiovisuels.
Par rapport à ces travaux, nous proposons, tout d’abord, dans notre approche
d’uti-liser d’autres caractéristiques comme les propriétés des distributions des occurrences des
répétitions. Nous ajoutons, ensuite, à ces propriétés des dépendances « contextuelles » et
« relationnelles ». Toutes ces nouvelles caractéristiques sont modélisées et utilisées à
vers des règles logiques apprises automatiquement. Au final, nous appliquons ces règles
pour la classification en genre des segments. Notre méthode est expliquée en détail dans
la section suivante.
Dans le document
Délinéarisation automatique de flux de télévision
(Page 76-82)