3.2 Notre méthode de classification
3.2.5 Module de classification
3.2.5.3 Décision de la classe de chaque segment
À la suite de l’application de plusieurs règles de classification, les segments peuvent
être classés en une ou plusieurs classes différentes. En effet, les ensembles des segments
couverts par les différentes règles ne sont pas disjoints. La détermination de la classe d’un
segment à l’issue de l’application de toutes les règles requiert par conséquent une décision.
Cette détermination de la classe d’un segment est aussi nécessaire pendant l’algorithme
d’application des règles pour pouvoir utiliser les règles de niveaux de pertinence inférieurs
ou les règles récursives, mono-classe et multi-classes. La décision de la classe de chaque
Application des règles
⊲ Entrées:
np
max: Niveau de pertinence maximum ;
E : Ensemble de règles (apprises eta priori) ;
L
Segments: Liste des segments à classer ;
⊳ Sorties:
L
Segments: Liste des segments classés ;
Début
1: pouri=np
max>0 à 0 faire
2: répéter
3: pourchaque classeC faire
4: // règles mono-classe
5: ApplicationDétaillée(E
{C,1C,i},L
Segments) ;
6: fin pour
7: répéter
8: pourchaque classeC faire
9: // règles multi-classes
10: ApplicationDétaillée(E
{C,NC,i},L
Segments) ;
11: fin pour
12: jusqu’à Aucune règle appliquée deE n’est effective
13: jusqu’à Aucune règle appliquée deE n’est effective
14: fin pour
Fin
Algorithme 4 – Application des règles de classification. Les règles mono-classes sont
ApplicationDétaillée
⊲Entrées:
E : Ensemble de règles ;
L
Segments: Liste des segments à classer ;
⊳Sorties:
L
Segments: Liste des segments éventuellement classés ;
Début
1: Appliquer àL
Segmentsles règlesnon récursivesde E;
2: répéter
3: Appliquer àL
Segmentsles règles récursivesde E;
4: jusqu’à Aucune règle appliquée deE n’est effective
Fin
Algorithme 5 – Application détaillée des règles de classification. Les règles non
récur-sives sont appliquées en premier.
segment peut donc être effectuée plusieurs fois en plus de la décision finale de la classe de
chaque segment.
Notre méthode de décision de la classe de chaque segment repose sur un système de
votes. Chaque règle de classification dont le prédicat de classe est vrai pour un segment
vote pour une classe spécifique pour un segment particulier. Le vote possède alors une
valeur dépendante du niveau de pertinence de la règle. Les règlesa priori sont des règles
absolues. La valeur de leur vote est donc infinie. Pour les règles normales, nous avons
évalué empiriquement que nous obtenons de meilleurs résultats de classification lorsque la
valeur d’un vote est 2
ipour une règle de niveau de pertinencei. Ainsi, une règle de niveau
de pertinencei possède 2 fois plus de poids qu’une règle de niveau de pertinencei−1.
Chaque segment peut posséder des votes attribués à chaque classe possible. Nous
pro-posons deux modes de décision :
1)« Le vote unanime ». La classe du segment est la seule classe qui a
reçu des votes. Si plusieurs classes ont reçu des votes, le segment n’est
pas classé.
2)« Le vote majoritaire ». La classe du segment est la classe qui a reçu
strictement le plus de votes. Si plusieurs classes sont à égalité, le segment
n’est pas classé.
Lorsqu’une classe unique est déterminée pour un segment, celle-ci peut être soit fixée
pour la suite de l’algorithme d’application des règles, soit laissée ouverte à des
modifica-tions ultérieures en fonction des prochaines règles appliquées et des prochains votes. Les
expériences de la section 3.3 montrent quelle est la configuration la plus performante.
3.3 Résultats
Nous avons évalué notre méthode de classification des segments audiovisuels basée
sur la programmation logique inductive en fonction des quatre contraintes clés de
généri-cité, d’efficagénéri-cité, d’automatigénéri-cité, et de continuité. Nous rappelons que ces contraintes sont
nécessaires pour la construction d’un système global de délinéarisation automatique.
La généricité et l’efficacité de notre méthode sont étudiées en réalisant des expériences
sur deux chaînes : TF1 et France 2. Les résultats de ces expériences sont analysés dans la
suite de cette section pour montrer les performances de notre classification des segments.
La continuité et l’automaticité de notre méthode sont assurées par le système de
dé-coupage. Ce dernier fournit des segments à partir d’une analyse du flux en portions de
24 heures. Pour ce niveau de délinéarisation, nous appliquons simplement un ensemble
de règles de classification sur les segments découpés de chaque portion. L’ordre
d’appli-cation des règles est bien défini. Il ne dépend pas de paramètres cruciaux. L’applid’appli-cation
des règles est donc automatique. Cet ensemble de règles requiert néanmoins une étape
d’apprentissage. Cet apprentissage est nécessaire pour la configuration du système de
déli-néarisation sur chaque chaîne de télévision. Il est supervisé et il s’effectue sur une semaine
de flux TV précisément annotée comme dans l’annexe B. Cependant, notre système reste
complètement automatique lors de son utilisation. Pour la continuité, nous appliquons en
plus notre méthode sur tous les jours de notre ensemble de test et nous vérifions que les
résultats sont stables et cohérents.
Pour présenter les résultats, nous détaillons en premier le contexte expérimental, puis
le protocole d’évaluation et enfin les expériences. Nous classons dans un premier temps les
segments en segments de programme et en segments d’inter-programme puis, dans un
se-cond temps, nous classons les segments en segments de programme long et en segments qui
ne sont pas des programmes longs (les programmes courts et les inter-programmes). Nous
proposons aussi une classification des segments d’inter-programmes en trois catégories :
les publicités, les bandes annonces et les parrainages.
3.3.1 Contexte expérimental
Nous gardons le contexte expérimental utilisé pour le découpage en segments à partir
des répétitions du flux. De plus, nous utilisons directement les résultats du découpage
obtenus par la méthode du chapitre 2 précédent. Nous donnons dans le tableau 3.1 le
nombre total de segments découpé sur France 2 et sur TF1 pour les 4 semaines. Nous
indiquons également dans ce même tableau, le nombre de segments de programme et le
nombre de segments d’inter-programme à classer.
Le découpage utilise un historique d’une semaine que nous conservons en entier pour
prendre en compte les propriétés de répétitions des segments. Nous analysons cependant
le flux par portions de 24 heures selon le même procédé utilisé pour le découpage. Pour
chaque jour analysé, nous considérons donc les segments issus des répétitions calculées sur
une semaine avec les paramètres fixés dans la section 2.5.
Pour les deux chaînes France 2 et TF1, nous utilisons plus précisément la première
semaine du corpus de l’annexe A pour réaliser l’apprentissage. Les 3 autres semaines
constituent notre ensemble de test. La deuxième semaine est une semaine transitoire car
les répétitions sont calculées sur un historique qui empiète sur les répétitions de la
se-Nombre de segments total Programmes Inter-programmes
Semaine n°1 3764 1316 2448
Semaine n°2 3811 1198 2613
Semaine n°3 3917 1210 2707
Semaine n°4 3846 1218 2628
(a) France 2
Nombre de segments total Programmes Inter-programmes
Semaine n°1 4705 931 3774
Semaine n°2 5044 1022 4022
Semaine n°3 5330 1057 4273
Semaine n°4 5397 1084 4313
(b) TF1
Tableau 3.1 – Segments résultant du découpage effectué à partir des répétitions.
maine utilisée pour l’apprentissage. Les deux dernières semaines du corpus sont de réelles
semaines de test sans aucun lien avec l’apprentissage. La figure 3.13 illustre cette utilisation
des semaines du corpus.
Figure 3.13 – Utilisation des semaines du corpus pour l’apprentissage et le test de la
classification de portions de 24 heures avec prise en compte d’un historique d’une semaine.
3.3.2 Protocole d’évaluation
Nous évaluons la classe attribuée à chaque segment par notre méthode. Pour évaluer
la classe attribuée à un segment, nous la comparons avec la classe réelle du segment. Cette
classe réelle est obtenue par mise en correspondance des segments découpés
automatique-ment et des segautomatique-ments de la vérité terrain établis manuelleautomatique-ment. Un segautomatique-ment découpé est
mis en correspondance avec le segment de la vérité terrain qui le chevauche le plus.
Dans un système de classification, des matrices de confusion sont utilisées pour
l’éva-luation. Chaque ligne d’une matrice de confusion correspond à l’ensemble des segments
qui appartiennent à une seule classe réelle. La répartition de ces segments dans chaque
colonne indique dans quelle classe les segments ont été classés par notre méthode. Une
clas-sification de bonne qualité maximise la diagonale principale de la matrice pour laquelle la
classe de la colonne correspond à la classe de la ligne. Dans notre système, nous utilisons
une colonne supplémentaire ∅pour représenter les segments qui n’ont pas été classés.
Un exemple de matrice de confusion pour 2 classes A et B est donné dans le tableau 3.2.
Une bonne classification maximise m
1etm
5par rapport à m
2,m
3,m
4et m
6.
A B ∅
A m
1m
2m
3B m
4m
5m
6Tableau 3.2 – Exemple de matrice de confusion pour 2 classes A et B.
Dans le cas particulier des matrices de confusion à 2 classes, un cœfficient peut être
calculé pour représenter la corrélation entre les classes réelles et les classes attribuées par
notre méthode. Il fournit une mesure globale de la qualité de la classification. Il est lié aux
cœfficients de corrélation de Pearson. Ce cœfficient noté P hi est obtenu par la formule
suivante :
P hi= m
1m
5−(m
2+m
3)(m
4+m
6)
p
(m
1+m
2+m
3)(m
1+m
4+m
6)(m
5+m
2+m
3)(m
5+m
4+m
6) ∈[−1,1].
3.3.3 Expériences 1 : classification des segments en segments de
Dans le document
Délinéarisation automatique de flux de télévision
(Page 102-107)