3.2 Notre méthode de classification
3.3.3 Expériences 1 : classification des segments en segments de programme
3.3.3.5 Analyse des résultats de classification
Les précédentes expériences nous ont permis de configurer notre méthode de
classifi-cation des segments en segments d’inter-programme et en segments de programme. Nous
analysons à présent les résultats de manière plus approfondie.
Afin de mettre en perspective les résultats obtenus, nous avons sélectionné 3 méthodes
simples de classification des segments. Ces méthodes sont les suivantes :
Classe type de règles Niv. 0 Niv. 1 Niv. 2 Niv. 3
Pertinence basse moyenne haute très haute
Inter-programme mono-classe 7 7 28 33
multi-classes 10 2 20 27
Programme mono-classe 8 3 17 28
multi-classes 13 1 9 4
Tableau 3.3 – Nombres de règles par niveau de pertinence sur France 2.
Classe type de règles Niv. 0 Niv. 1 Niv. 2 Niv. 3
Pertinence basse moyenne haute très haute
Inter-programme mono-classe 12 8 26 17
multi-classes 5 8 35 71
Programme mono-classe 12 5 17 11
multi-classes 12 2 4 2
Tableau 3.4 – Nombres de règles par niveau de pertinence sur TF1.
1) « Classification manuelle » classe chacun des segments suivant leur classe
dans la vérité terrain. La classification obtenue est donc manuelle. Elle
représente la classification idéale à atteindre par notre méthode,
compte-tenu du découpage du flux réalisé ;
2) « Tout IP » classe tous les segments comme des inter-programmes. Il est
important que notre méthode soit largement supérieure à cette solution
naïve ;
3) « IP < 3 min » utilise un simple seuil sur la durée des segments. Un
seg-ment est alors classé comme un segseg-ment d’inter-programme si sa durée
est inférieure à 3 minutes. Cette solution est le type de solution
sou-vent utilisée par défaut dans les méthodes existantes présentées dans le
chapitre 1 [CBF06, ZZZY08].
La figure 3.18 montre les résultats. Comme il était prévisible, les résultats de la «
Classi-fication manuelle » sont maximaux et les résultats de « Tout IP » sont à zéro. Les résultats
de la méthode « IP < 3 min » restent relativement élevés mais notre solution est bien
net-tement supérieure. La méthode « IP < 3 min » bénéficie de ces résultats car elle classe
correctement au moins tous les inter-programmes. Tous les inter-programmes possèdent
en effet une durée inférieure à 3 minutes. Au final, notre solution obtient des résultats
performants par rapport aux classifications de référence. Les résultats restent bien stables
pour chaque journée de notre ensemble de test. Notre solution vérifie donc notre contrainte
clé de continuité.
Comme ces résultats l’indiquent aussi, notre solution effectue quelques erreurs. Pour
mesurer l’efficacité globale de notre solution, nous présentons ainsi les matrices de
0 0,2 0,4 0,6 0,8 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Phi Jours 0 0,2 0,4 0,6 0,8 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Phi Jours
(a) France 2 (b) TF1
Figure 3.18 – Comparaison des performances de Phi de la classification des segments.
sion dans le tableau 3.5. Ces matrices de confusion correspondent aux résultats de
classi-fication de l’ensemble des jours de test.
IP P ∅
Inter-programme (IP) 7682 240 26
Programme (P) 434 3190 2
IP P ∅
Inter-programme (IP) 12517 91 0
Programme (P) 979 2183 1
(a) France 2 (b) TF1
Tableau 3.5 – Matrices de confusion de notre classification des segments en segments
d’inter-programme et en segments de programme sur les 3 semaines de test.
À partir des résultats présentés dans le tableau 3.5, nous pouvons calculer des
me-sures de précision et de rappel pour la classification des segments en segments
d’inter-programme. À titre indicatif, nous donnons également les mesures de précision et de
rap-pel en termes de plans correctement classés et d’images correctement classées. Tous ces
résultats sont donnés dans le tableau 3.6.
Lors de l’analyse visuelle des résultats, nous avons identifié trois types d’erreurs. La
première erreur courante est un segment d’inter-programme qui précède ou suit un segment
de programme. Ces segments que nous appelons segments de « frontière » sont
majoritaire-Inter-programmes Précision Rappel
Segments 94,65 % 96,65 %
Plans 94,97 % 93,54 %
Images 89,79 % 96,54 %
Inter-programmes Précision Rappel
Segments 92,75 % 99,28 %
Plans 91,50 % 95,71 %
Images 88,81 % 98,40 %
(a) France 2 (b) TF1
Tableau 3.6 – Performances en termes de précision et de rappel de la classification des
segments en inter-programmes sur les 3 semaines de test.
ment des parrainages. Ils sont incorrectement classés comme segments de programme. La
deuxième erreur fréquente est, à l’inverse, un segment court de générique de programme
classé en tant qu’inter-programme. Enfin, la troisième erreur courante est un segment de
programme court classé en tant que segment d’inter-programme. Ces types d’erreurs
par-tagent un point commun. Elles concernent, en effet, toutes des segments situés aux limites
de zones de segments de la même classe. Ce sont des segments de séparation.
Pour mesurer la part de chaque type d’erreurs, nous proposons dans le tableau 3.7 des
matrices de confusion détaillées. Ces matrices montrent quelles classes ont été attribuées
aux différents types de segments de séparation. Les erreurs que nous avons notées
visuelle-ment sont confirmées. Les segvisuelle-ments de frontière représentent environ la moitié des erreurs
de classification des programmes. Les génériques et les programmes courts représentent
environ les trois quarts des erreurs de classification des inter-programmes. Notre solution
rencontre donc des difficultés pour classer les segments de séparation, c’est à dire les
par-rainages, les génériques et les programmes courts. Nous verrons dans le chapitre 4 qu’elles
en sont les conséquences sur le processus de délinéarisation.
Une des difficultés pour classer les segments de séparation est que les distributions
des occurrences des répétitions des segments de séparation sont souvent similaires. Par
exemple, un parrainage est souvent associé à un programme spécifique. Il est donc rediffusé
de la même manière que le générique de ce programme. Cela rend les génériques et les
parrainages difficiles à séparer à partir de nos descripteurs. Une solution envisageable serait
d’ajouter des descripteurs supplémentaires comme la détection de textes dans les images.
Une autre difficulté pour classer ces segments de séparation provient en partie de
notre configuration du découpage du flux en segments. Nous avons, en effet, choisi de
ne pas utiliser les clusters solitaires au cours des expériences de la section 2.5.5. Nous
rappelons que ces clusters solitaires généraient un sur-découpage du flux. L’inconvénient
de ce choix était alors que les parrainages étaient moins bien détectés. Pour la méthode de
classification, la réduction de la détection des parrainages fournit moins d’exemples fiables
à partir desquels généraliser de bonnes règles de classification.
Dans le document
Délinéarisation automatique de flux de télévision
(Page 111-114)