• Aucun résultat trouvé

Les programmes extractibles à partir des métadonnées : les pro-

4.1 Extraction des programmes basée sur les métadonnées

4.1.1 Les programmes extractibles à partir des métadonnées : les pro-

4.1.2 Mise en correspondance locale des segments découpés avec les

programmes longs des métadonnées . . . 112

4.2 Extraction des programmes basée sur le contenu audiovisuel . 114

4.2.1 Méthode de réunification basée contenu des programmes TV . . 115

4.2.2 Caractéristiques audiovisuelles utilisées pour la réunification

ba-sée contenu . . . 117

4.3 Résultats . . . 120

4.3.1 Contexte expérimental . . . 120

4.3.2 Protocole d’évaluation . . . 121

4.3.3 Expériences 1 : extraction des programmes longs basée sur les

métadonnées . . . 121

4.3.4 Expériences 2 : extraction des programmes basée sur le contenu

audiovisuel . . . 127

4.3.5 Comparaison avec les résultats des méthodes existantes . . . 129

4.3.6 Synthèse . . . 132

N

ous présentonsniveau, les programmes TV sont extraits de chaque portion analysée du flux continu.enfin le dernier niveau de délinéarisation de notre système. Dans ce

Les programmes TV ainsi extraits peuvent ensuite être archivés ou bien conservés dans

des catalogues pour alimenter automatiquement des nouveaux services de télévision à la

demande.

Dans ce chapitre, nous traitons seulement de l’extraction des programmes. Nous

re-prenons dans la figure 4.1 le fonctionnement par portion de notre système. Nous montrons

ainsi le contexte de l’extraction des programmes. Selon les niveaux de délinéarisation

pré-cédents, le flux est analysé périodiquement par portions de 24 heures. Chaque portion

est découpée en une suite de segments classés en tant que segments de programme ou

d’inter-programme.

Figure 4.1 –Contexte du niveau de délinéarisation pour l’extraction des programmes TV.

L’extraction des programmes repose principalement sur la résolution de deux

pro-blèmes :

1)la réunification des programmes. Un programme TV peut, en effet,

être diffusé en plusieurs parties correspondant à plusieurs segments de

programme. L’extraction du programme entier dépend donc de la

re-construction de ce programme à partir des segments qui le composent :

c’est la réunification. Si le programme TV est constitué d’un seul

seg-ment de programme, il est important de distinguer ce segseg-ment des autres

segments de programme adjacents ;

2)l’étiquetage des programmes.Les programmes TV sont couramment

identifiés par des titres dans les guides de programmes. Ces titres

per-mettent une indexation des programmes pour les services de télévision

à la demande. Pour que l’extraction automatique soit complète il est

important de déterminer ces titres : c’est l’étiquetage.

Lorsque les métadonnées du flux télévisuel sont disponibles, celles-ci fournissent des

titres et des horaires approximatifs de certains des programmes diffusés. Ce sont de

pré-cieuses informations pour la réunification et l’étiquetage. Cependant, l’analyse des

méta-données effectuée dans le chapitre 1 montre que les métaméta-données sont imprécises et souvent

incomplètes. Selon leur disponibilité, leur précision et leur complétude, les métadonnées

ne permettent l’extraction que d’une partie des programmes. Tous les programmes ne

peuvent pas être extraits en utilisant les métadonnées.

Nous proposons donc, dans ce chapitre, d’abord une méthode d’extraction automatique

de certains programmes à partir des métadonnées, puis une méthode d’extraction du reste

des programmes basée sur le contenu audiovisuel seulement. La méthode basée sur le

contenu audiovisuel n’effectue qu’une réunification automatique. L’étiquetage y devient

manuel. Ces deux méthodes sont finalement expérimentées. Les résultats de la première

méthode montrent alors les performances globales de notre solution pour la délinéarisation

automatique des flux télévisuels.

4.1 Extraction des programmes basée sur les métadonnées

Notre système entier de délinéarisation automatique des flux TV repose, dans se phase

finale, sur l’utilisation des métadonnées éventuelles qui accompagnent les flux TV. Ces

métadonnées (de type EPG ou EIT) permettent d’extraire automatiquement certains

pro-grammes. Elles contiennent trois types d’information importante :

1) les titres des programmes TV diffusés,

2) les horaires approximatifs des programmes TV diffusés,

3) l’ordre de diffusion des programmes TV diffusés.

Les métadonnées peuvent s’interpréter comme des suites de segments temporels

pos-sédant un titre. Ces segments sont notés « segments de métadonnées » dans le reste de ce

chapitre. De manière directe, le problème d’extraction des programmes TV peut alors être

vu comme un problème de mise en correspondance. En effet, les segments automatiquement

découpés et classés en programme forment des parties de programmes TV comme cela est

illustré dans la figure 4.2. Les segments de métadonnées représentent les programmes TV

de ces parties de programmes. Par conséquent, les segments automatiquement découpés

correspondent temporellement avec les segments de métadonnées.

Figure 4.2 –Principe de la mise en correspondance des segments découpés de programme

avec les métadonnées.

La mise en correspondance résout bien à la fois la problématique de réunification et

d’étiquetage. La réunification est effectuée lorsque plusieurs segments découpés

corres-pondent avec un même segment de métadonnées. L’étiquetage a lieu à chaque mise en

correspondance. Chaque segment découpé mis en correspondance avec un segment de

mé-tadonnées reçoit le titre du segment de mémé-tadonnées avec lequel il s’est associé.

L’efficacité de la mise en correspondance dépend malheureusement de la justesse du

découpage et de la fiabilité des métadonnées. En pratique, les segments découpés sont

souvent sur-segmentés et les métadonnées sont imprécises et incomplètes. Il existe

mal-gré tout un ensemble de programmes qui peuvent s’extraire par cette procédure de mise

en correspondance. C’est l’ensemble des programmes longs. Nous présentons alors notre

méthode de mise en correspondance locale des segments de programme découpés avec les

programmes longs des métadonnées.

4.1.1 Les programmes extractibles à partir des métadonnées : les

pro-grammes longs

Nous séparons les programmes en deux groupes : les programmes longs et les

pro-grammes courts. Les propro-grammes longs sont des propro-grammes qui durent plus de 5

mi-nutes. Ils s’agit de la majeure partie des éléments utiles de la télévision tels les films, les

journaux, les documentaires, les magazines, les séries, etc. Les programmes courts sont

à l’inverse des programmes de moins de 5 minutes. Ce sont, par exemple, des bulletins

météo, des magazines courts d’information pratique, des résumés d’évènements sportifs,

des clips musicaux, des jeux concours, des résultats de jeux, etc.

L’étude de la qualité des métadonnées présentée dans le chapitre 1 montre que les

pro-grammes courts et les propro-grammes longs ne sont pas égaux vis à vis des métadonnées. Les

programmes courts annoncés sont en effet souvent plus incomplets que les programmes

longs. De plus, les imprécisions indiquées dans les métadonnées ne possèdent pas le même

impact sur les programmes courts ou sur les programmes longs. Une erreur

d’approxi-mation de 5 minutes dans les horaires des métadonnées a plus de conséquence sur un

programme de 2 minutes que sur un programme d’une heure. Dans le cas d’un programme

court, l’horaire erroné peut correspondre avec l’horaire du programme court suivant ou

précédent. Enfin, nous avons remarqué que l’ordre de diffusion des programmes courts

annoncé dans les métadonnées n’est pas toujours respecté.

La figure 4.3 compare une suite de programmes courts diffusés dans le flux avec leurs

équivalents annoncés dans les métadonnées. Les flèches épaisses montrent les associations à

effectuer par une mise en correspondance. L’exemple montre en particulier pour la météo,

que l’élément correspondant à la météo dans les métadonnées est annoncé avec quelques

minutes d’avance tel qu’il semble plus correspondre avec le PMU. L’exemple est pris lors

d’une soirée sur TF1, après le journal télévisé. La situation n’est donc pas rare. Cela

montre à quel point il peut être ambigu de mettre en correspondance des segments de

programmes courts avec les métadonnées.

L’imprécision des métadonnées relatives aux programmes courts provient en partie du

fait que certains de ces programmes servent à combler des trous de programmation. Si du

temps de diffusion reste à définir et que les quotas de diffusion de publicité sont atteints, il

arrive que certains programmes courts soient alors rediffusés pour compléter les manques

dans le flux. Ces programmes courts particuliers sont donc difficiles à prévoir de façon

fiable dans les métadonnées.

Bien que les programmes courts soient difficiles à extraire à partir des métadonnées,

les programmes longs restent relativement bien annoncés dans les métadonnées et leurs

imprécisions temporelles impactent moins la mise en correspondance. Nous proposons alors

une première méthode spécifique pour extraire les programmes longs. Dans la section 4.2.1

suivante nous exposons une solution de secours pour extraire les programmes courts.

4.1.2 Mise en correspondance locale des segments découpés avec les