4.1 Extraction des programmes basée sur les métadonnées
4.1.1 Les programmes extractibles à partir des métadonnées : les pro-
4.1.2 Mise en correspondance locale des segments découpés avec les
programmes longs des métadonnées . . . 112
4.2 Extraction des programmes basée sur le contenu audiovisuel . 114
4.2.1 Méthode de réunification basée contenu des programmes TV . . 115
4.2.2 Caractéristiques audiovisuelles utilisées pour la réunification
ba-sée contenu . . . 117
4.3 Résultats . . . 120
4.3.1 Contexte expérimental . . . 120
4.3.2 Protocole d’évaluation . . . 121
4.3.3 Expériences 1 : extraction des programmes longs basée sur les
métadonnées . . . 121
4.3.4 Expériences 2 : extraction des programmes basée sur le contenu
audiovisuel . . . 127
4.3.5 Comparaison avec les résultats des méthodes existantes . . . 129
4.3.6 Synthèse . . . 132
N
ous présentonsniveau, les programmes TV sont extraits de chaque portion analysée du flux continu.enfin le dernier niveau de délinéarisation de notre système. Dans ce
Les programmes TV ainsi extraits peuvent ensuite être archivés ou bien conservés dans
des catalogues pour alimenter automatiquement des nouveaux services de télévision à la
demande.
Dans ce chapitre, nous traitons seulement de l’extraction des programmes. Nous
re-prenons dans la figure 4.1 le fonctionnement par portion de notre système. Nous montrons
ainsi le contexte de l’extraction des programmes. Selon les niveaux de délinéarisation
pré-cédents, le flux est analysé périodiquement par portions de 24 heures. Chaque portion
est découpée en une suite de segments classés en tant que segments de programme ou
d’inter-programme.
Figure 4.1 –Contexte du niveau de délinéarisation pour l’extraction des programmes TV.
L’extraction des programmes repose principalement sur la résolution de deux
pro-blèmes :
1)la réunification des programmes. Un programme TV peut, en effet,
être diffusé en plusieurs parties correspondant à plusieurs segments de
programme. L’extraction du programme entier dépend donc de la
re-construction de ce programme à partir des segments qui le composent :
c’est la réunification. Si le programme TV est constitué d’un seul
seg-ment de programme, il est important de distinguer ce segseg-ment des autres
segments de programme adjacents ;
2)l’étiquetage des programmes.Les programmes TV sont couramment
identifiés par des titres dans les guides de programmes. Ces titres
per-mettent une indexation des programmes pour les services de télévision
à la demande. Pour que l’extraction automatique soit complète il est
important de déterminer ces titres : c’est l’étiquetage.
Lorsque les métadonnées du flux télévisuel sont disponibles, celles-ci fournissent des
titres et des horaires approximatifs de certains des programmes diffusés. Ce sont de
pré-cieuses informations pour la réunification et l’étiquetage. Cependant, l’analyse des
méta-données effectuée dans le chapitre 1 montre que les métaméta-données sont imprécises et souvent
incomplètes. Selon leur disponibilité, leur précision et leur complétude, les métadonnées
ne permettent l’extraction que d’une partie des programmes. Tous les programmes ne
peuvent pas être extraits en utilisant les métadonnées.
Nous proposons donc, dans ce chapitre, d’abord une méthode d’extraction automatique
de certains programmes à partir des métadonnées, puis une méthode d’extraction du reste
des programmes basée sur le contenu audiovisuel seulement. La méthode basée sur le
contenu audiovisuel n’effectue qu’une réunification automatique. L’étiquetage y devient
manuel. Ces deux méthodes sont finalement expérimentées. Les résultats de la première
méthode montrent alors les performances globales de notre solution pour la délinéarisation
automatique des flux télévisuels.
4.1 Extraction des programmes basée sur les métadonnées
Notre système entier de délinéarisation automatique des flux TV repose, dans se phase
finale, sur l’utilisation des métadonnées éventuelles qui accompagnent les flux TV. Ces
métadonnées (de type EPG ou EIT) permettent d’extraire automatiquement certains
pro-grammes. Elles contiennent trois types d’information importante :
1) les titres des programmes TV diffusés,
2) les horaires approximatifs des programmes TV diffusés,
3) l’ordre de diffusion des programmes TV diffusés.
Les métadonnées peuvent s’interpréter comme des suites de segments temporels
pos-sédant un titre. Ces segments sont notés « segments de métadonnées » dans le reste de ce
chapitre. De manière directe, le problème d’extraction des programmes TV peut alors être
vu comme un problème de mise en correspondance. En effet, les segments automatiquement
découpés et classés en programme forment des parties de programmes TV comme cela est
illustré dans la figure 4.2. Les segments de métadonnées représentent les programmes TV
de ces parties de programmes. Par conséquent, les segments automatiquement découpés
correspondent temporellement avec les segments de métadonnées.
Figure 4.2 –Principe de la mise en correspondance des segments découpés de programme
avec les métadonnées.
La mise en correspondance résout bien à la fois la problématique de réunification et
d’étiquetage. La réunification est effectuée lorsque plusieurs segments découpés
corres-pondent avec un même segment de métadonnées. L’étiquetage a lieu à chaque mise en
correspondance. Chaque segment découpé mis en correspondance avec un segment de
mé-tadonnées reçoit le titre du segment de mémé-tadonnées avec lequel il s’est associé.
L’efficacité de la mise en correspondance dépend malheureusement de la justesse du
découpage et de la fiabilité des métadonnées. En pratique, les segments découpés sont
souvent sur-segmentés et les métadonnées sont imprécises et incomplètes. Il existe
mal-gré tout un ensemble de programmes qui peuvent s’extraire par cette procédure de mise
en correspondance. C’est l’ensemble des programmes longs. Nous présentons alors notre
méthode de mise en correspondance locale des segments de programme découpés avec les
programmes longs des métadonnées.
4.1.1 Les programmes extractibles à partir des métadonnées : les
pro-grammes longs
Nous séparons les programmes en deux groupes : les programmes longs et les
pro-grammes courts. Les propro-grammes longs sont des propro-grammes qui durent plus de 5
mi-nutes. Ils s’agit de la majeure partie des éléments utiles de la télévision tels les films, les
journaux, les documentaires, les magazines, les séries, etc. Les programmes courts sont
à l’inverse des programmes de moins de 5 minutes. Ce sont, par exemple, des bulletins
météo, des magazines courts d’information pratique, des résumés d’évènements sportifs,
des clips musicaux, des jeux concours, des résultats de jeux, etc.
L’étude de la qualité des métadonnées présentée dans le chapitre 1 montre que les
pro-grammes courts et les propro-grammes longs ne sont pas égaux vis à vis des métadonnées. Les
programmes courts annoncés sont en effet souvent plus incomplets que les programmes
longs. De plus, les imprécisions indiquées dans les métadonnées ne possèdent pas le même
impact sur les programmes courts ou sur les programmes longs. Une erreur
d’approxi-mation de 5 minutes dans les horaires des métadonnées a plus de conséquence sur un
programme de 2 minutes que sur un programme d’une heure. Dans le cas d’un programme
court, l’horaire erroné peut correspondre avec l’horaire du programme court suivant ou
précédent. Enfin, nous avons remarqué que l’ordre de diffusion des programmes courts
annoncé dans les métadonnées n’est pas toujours respecté.
La figure 4.3 compare une suite de programmes courts diffusés dans le flux avec leurs
équivalents annoncés dans les métadonnées. Les flèches épaisses montrent les associations à
effectuer par une mise en correspondance. L’exemple montre en particulier pour la météo,
que l’élément correspondant à la météo dans les métadonnées est annoncé avec quelques
minutes d’avance tel qu’il semble plus correspondre avec le PMU. L’exemple est pris lors
d’une soirée sur TF1, après le journal télévisé. La situation n’est donc pas rare. Cela
montre à quel point il peut être ambigu de mettre en correspondance des segments de
programmes courts avec les métadonnées.
L’imprécision des métadonnées relatives aux programmes courts provient en partie du
fait que certains de ces programmes servent à combler des trous de programmation. Si du
temps de diffusion reste à définir et que les quotas de diffusion de publicité sont atteints, il
arrive que certains programmes courts soient alors rediffusés pour compléter les manques
dans le flux. Ces programmes courts particuliers sont donc difficiles à prévoir de façon
fiable dans les métadonnées.
Bien que les programmes courts soient difficiles à extraire à partir des métadonnées,
les programmes longs restent relativement bien annoncés dans les métadonnées et leurs
imprécisions temporelles impactent moins la mise en correspondance. Nous proposons alors
une première méthode spécifique pour extraire les programmes longs. Dans la section 4.2.1
suivante nous exposons une solution de secours pour extraire les programmes courts.
4.1.2 Mise en correspondance locale des segments découpés avec les
Dans le document
Délinéarisation automatique de flux de télévision
(Page 120-123)