Analyse des résultats de classification - Expériences 1 : classification des segments en segmen

3.2 Notre méthode de classification

3.3.3 Expériences 1 : classification des segments en segments de programme

3.3.3.5 Analyse des résultats de classification

Les précédentes expériences nous ont permis de configurer notre méthode de

classifi-cation des segments en segments d’inter-programme et en segments de programme. Nous

analysons à présent les résultats de manière plus approfondie.

Afin de mettre en perspective les résultats obtenus, nous avons sélectionné 3 méthodes

simples de classification des segments. Ces méthodes sont les suivantes :

Classe type de règles Niv. 0 Niv. 1 Niv. 2 Niv. 3

Pertinence basse moyenne haute très haute

Inter-programme mono-classe 7 7 28 33

multi-classes 10 2 20 27

Programme mono-classe 8 3 17 28

multi-classes 13 1 9 4

Tableau 3.3 – Nombres de règles par niveau de pertinence sur France 2.

Classe type de règles Niv. 0 Niv. 1 Niv. 2 Niv. 3

Pertinence basse moyenne haute très haute

Inter-programme mono-classe 12 8 26 17

multi-classes 5 8 35 71

Programme mono-classe 12 5 17 11

multi-classes 12 2 4 2

Tableau 3.4 – Nombres de règles par niveau de pertinence sur TF1.

1) « Classification manuelle » classe chacun des segments suivant leur classe

dans la vérité terrain. La classification obtenue est donc manuelle. Elle

représente la classification idéale à atteindre par notre méthode,

compte-tenu du découpage du flux réalisé ;

2) « Tout IP » classe tous les segments comme des inter-programmes. Il est

important que notre méthode soit largement supérieure à cette solution

naïve ;

3) « IP < 3 min » utilise un simple seuil sur la durée des segments. Un

seg-ment est alors classé comme un segseg-ment d’inter-programme si sa durée

est inférieure à 3 minutes. Cette solution est le type de solution

sou-vent utilisée par défaut dans les méthodes existantes présentées dans le

chapitre 1 [CBF06, ZZZY08].

La figure 3.18 montre les résultats. Comme il était prévisible, les résultats de la «

Classi-fication manuelle » sont maximaux et les résultats de « Tout IP » sont à zéro. Les résultats

de la méthode « IP < 3 min » restent relativement élevés mais notre solution est bien

net-tement supérieure. La méthode « IP < 3 min » bénéficie de ces résultats car elle classe

correctement au moins tous les inter-programmes. Tous les inter-programmes possèdent

en effet une durée inférieure à 3 minutes. Au final, notre solution obtient des résultats

performants par rapport aux classifications de référence. Les résultats restent bien stables

pour chaque journée de notre ensemble de test. Notre solution vérifie donc notre contrainte

clé de continuité.

Comme ces résultats l’indiquent aussi, notre solution effectue quelques erreurs. Pour

mesurer l’efficacité globale de notre solution, nous présentons ainsi les matrices de

0 0,2 0,4 0,6 0,8 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Phi Jours 0 0,2 0,4 0,6 0,8 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Phi Jours

(a) France 2 (b) TF1

Figure 3.18 – Comparaison des performances de Phi de la classification des segments.

sion dans le tableau 3.5. Ces matrices de confusion correspondent aux résultats de

classi-fication de l’ensemble des jours de test.

IP P ∅

Inter-programme (IP) 7682 240 26

Programme (P) 434 3190 2

IP P ∅

Inter-programme (IP) 12517 91 0

Programme (P) 979 2183 1

(a) France 2 (b) TF1

Tableau 3.5 – Matrices de confusion de notre classification des segments en segments

d’inter-programme et en segments de programme sur les 3 semaines de test.

À partir des résultats présentés dans le tableau 3.5, nous pouvons calculer des

me-sures de précision et de rappel pour la classification des segments en segments

d’inter-programme. À titre indicatif, nous donnons également les mesures de précision et de

rap-pel en termes de plans correctement classés et d’images correctement classées. Tous ces

résultats sont donnés dans le tableau 3.6.

Lors de l’analyse visuelle des résultats, nous avons identifié trois types d’erreurs. La

première erreur courante est un segment d’inter-programme qui précède ou suit un segment

de programme. Ces segments que nous appelons segments de « frontière » sont

majoritaire-Inter-programmes Précision Rappel

Segments 94,65 % 96,65 %

Plans 94,97 % 93,54 %

Images 89,79 % 96,54 %

Inter-programmes Précision Rappel

Segments 92,75 % 99,28 %

Plans 91,50 % 95,71 %

Images 88,81 % 98,40 %

(a) France 2 (b) TF1

Tableau 3.6 – Performances en termes de précision et de rappel de la classification des

segments en inter-programmes sur les 3 semaines de test.

ment des parrainages. Ils sont incorrectement classés comme segments de programme. La

deuxième erreur fréquente est, à l’inverse, un segment court de générique de programme

classé en tant qu’inter-programme. Enfin, la troisième erreur courante est un segment de

programme court classé en tant que segment d’inter-programme. Ces types d’erreurs

par-tagent un point commun. Elles concernent, en effet, toutes des segments situés aux limites

de zones de segments de la même classe. Ce sont des segments de séparation.

Pour mesurer la part de chaque type d’erreurs, nous proposons dans le tableau 3.7 des

matrices de confusion détaillées. Ces matrices montrent quelles classes ont été attribuées

aux différents types de segments de séparation. Les erreurs que nous avons notées

visuelle-ment sont confirmées. Les segvisuelle-ments de frontière représentent environ la moitié des erreurs

de classification des programmes. Les génériques et les programmes courts représentent

environ les trois quarts des erreurs de classification des inter-programmes. Notre solution

rencontre donc des difficultés pour classer les segments de séparation, c’est à dire les

par-rainages, les génériques et les programmes courts. Nous verrons dans le chapitre 4 qu’elles

en sont les conséquences sur le processus de délinéarisation.

Une des difficultés pour classer les segments de séparation est que les distributions

des occurrences des répétitions des segments de séparation sont souvent similaires. Par

exemple, un parrainage est souvent associé à un programme spécifique. Il est donc rediffusé

de la même manière que le générique de ce programme. Cela rend les génériques et les

parrainages difficiles à séparer à partir de nos descripteurs. Une solution envisageable serait

d’ajouter des descripteurs supplémentaires comme la détection de textes dans les images.

Une autre difficulté pour classer ces segments de séparation provient en partie de

notre configuration du découpage du flux en segments. Nous avons, en effet, choisi de

ne pas utiliser les clusters solitaires au cours des expériences de la section 2.5.5. Nous

rappelons que ces clusters solitaires généraient un sur-découpage du flux. L’inconvénient

de ce choix était alors que les parrainages étaient moins bien détectés. Pour la méthode de

classification, la réduction de la détection des parrainages fournit moins d’exemples fiables

à partir desquels généraliser de bonnes règles de classification.

Dans le document Délinéarisation automatique de flux de télévision (Page 111-114)