• Aucun résultat trouvé

Décision de la classe de chaque segment

3.2 Notre méthode de classification

3.2.5 Module de classification

3.2.5.3 Décision de la classe de chaque segment

À la suite de l’application de plusieurs règles de classification, les segments peuvent

être classés en une ou plusieurs classes différentes. En effet, les ensembles des segments

couverts par les différentes règles ne sont pas disjoints. La détermination de la classe d’un

segment à l’issue de l’application de toutes les règles requiert par conséquent une décision.

Cette détermination de la classe d’un segment est aussi nécessaire pendant l’algorithme

d’application des règles pour pouvoir utiliser les règles de niveaux de pertinence inférieurs

ou les règles récursives, mono-classe et multi-classes. La décision de la classe de chaque

Application des règles

Entrées:

np

max

: Niveau de pertinence maximum ;

E : Ensemble de règles (apprises eta priori) ;

L

Segments

: Liste des segments à classer ;

Sorties:

L

Segments

: Liste des segments classés ;

Début

1: pouri=np

max

>0 à 0 faire

2: répéter

3: pourchaque classeC faire

4: // règles mono-classe

5: ApplicationDétaillée(E

{C,1C,i}

,L

Segments

) ;

6: fin pour

7: répéter

8: pourchaque classeC faire

9: // règles multi-classes

10: ApplicationDétaillée(E

{C,NC,i}

,L

Segments

) ;

11: fin pour

12: jusqu’à Aucune règle appliquée deE n’est effective

13: jusqu’à Aucune règle appliquée deE n’est effective

14: fin pour

Fin

Algorithme 4 – Application des règles de classification. Les règles mono-classes sont

ApplicationDétaillée

Entrées:

E : Ensemble de règles ;

L

Segments

: Liste des segments à classer ;

Sorties:

L

Segments

: Liste des segments éventuellement classés ;

Début

1: Appliquer àL

Segments

les règlesnon récursivesde E;

2: répéter

3: Appliquer àL

Segments

les règles récursivesde E;

4: jusqu’à Aucune règle appliquée deE n’est effective

Fin

Algorithme 5 – Application détaillée des règles de classification. Les règles non

récur-sives sont appliquées en premier.

segment peut donc être effectuée plusieurs fois en plus de la décision finale de la classe de

chaque segment.

Notre méthode de décision de la classe de chaque segment repose sur un système de

votes. Chaque règle de classification dont le prédicat de classe est vrai pour un segment

vote pour une classe spécifique pour un segment particulier. Le vote possède alors une

valeur dépendante du niveau de pertinence de la règle. Les règlesa priori sont des règles

absolues. La valeur de leur vote est donc infinie. Pour les règles normales, nous avons

évalué empiriquement que nous obtenons de meilleurs résultats de classification lorsque la

valeur d’un vote est 2

i

pour une règle de niveau de pertinencei. Ainsi, une règle de niveau

de pertinencei possède 2 fois plus de poids qu’une règle de niveau de pertinencei−1.

Chaque segment peut posséder des votes attribués à chaque classe possible. Nous

pro-posons deux modes de décision :

1)« Le vote unanime ». La classe du segment est la seule classe qui a

reçu des votes. Si plusieurs classes ont reçu des votes, le segment n’est

pas classé.

2)« Le vote majoritaire ». La classe du segment est la classe qui a reçu

strictement le plus de votes. Si plusieurs classes sont à égalité, le segment

n’est pas classé.

Lorsqu’une classe unique est déterminée pour un segment, celle-ci peut être soit fixée

pour la suite de l’algorithme d’application des règles, soit laissée ouverte à des

modifica-tions ultérieures en fonction des prochaines règles appliquées et des prochains votes. Les

expériences de la section 3.3 montrent quelle est la configuration la plus performante.

3.3 Résultats

Nous avons évalué notre méthode de classification des segments audiovisuels basée

sur la programmation logique inductive en fonction des quatre contraintes clés de

généri-cité, d’efficagénéri-cité, d’automatigénéri-cité, et de continuité. Nous rappelons que ces contraintes sont

nécessaires pour la construction d’un système global de délinéarisation automatique.

La généricité et l’efficacité de notre méthode sont étudiées en réalisant des expériences

sur deux chaînes : TF1 et France 2. Les résultats de ces expériences sont analysés dans la

suite de cette section pour montrer les performances de notre classification des segments.

La continuité et l’automaticité de notre méthode sont assurées par le système de

dé-coupage. Ce dernier fournit des segments à partir d’une analyse du flux en portions de

24 heures. Pour ce niveau de délinéarisation, nous appliquons simplement un ensemble

de règles de classification sur les segments découpés de chaque portion. L’ordre

d’appli-cation des règles est bien défini. Il ne dépend pas de paramètres cruciaux. L’applid’appli-cation

des règles est donc automatique. Cet ensemble de règles requiert néanmoins une étape

d’apprentissage. Cet apprentissage est nécessaire pour la configuration du système de

déli-néarisation sur chaque chaîne de télévision. Il est supervisé et il s’effectue sur une semaine

de flux TV précisément annotée comme dans l’annexe B. Cependant, notre système reste

complètement automatique lors de son utilisation. Pour la continuité, nous appliquons en

plus notre méthode sur tous les jours de notre ensemble de test et nous vérifions que les

résultats sont stables et cohérents.

Pour présenter les résultats, nous détaillons en premier le contexte expérimental, puis

le protocole d’évaluation et enfin les expériences. Nous classons dans un premier temps les

segments en segments de programme et en segments d’inter-programme puis, dans un

se-cond temps, nous classons les segments en segments de programme long et en segments qui

ne sont pas des programmes longs (les programmes courts et les inter-programmes). Nous

proposons aussi une classification des segments d’inter-programmes en trois catégories :

les publicités, les bandes annonces et les parrainages.

3.3.1 Contexte expérimental

Nous gardons le contexte expérimental utilisé pour le découpage en segments à partir

des répétitions du flux. De plus, nous utilisons directement les résultats du découpage

obtenus par la méthode du chapitre 2 précédent. Nous donnons dans le tableau 3.1 le

nombre total de segments découpé sur France 2 et sur TF1 pour les 4 semaines. Nous

indiquons également dans ce même tableau, le nombre de segments de programme et le

nombre de segments d’inter-programme à classer.

Le découpage utilise un historique d’une semaine que nous conservons en entier pour

prendre en compte les propriétés de répétitions des segments. Nous analysons cependant

le flux par portions de 24 heures selon le même procédé utilisé pour le découpage. Pour

chaque jour analysé, nous considérons donc les segments issus des répétitions calculées sur

une semaine avec les paramètres fixés dans la section 2.5.

Pour les deux chaînes France 2 et TF1, nous utilisons plus précisément la première

semaine du corpus de l’annexe A pour réaliser l’apprentissage. Les 3 autres semaines

constituent notre ensemble de test. La deuxième semaine est une semaine transitoire car

les répétitions sont calculées sur un historique qui empiète sur les répétitions de la

se-Nombre de segments total Programmes Inter-programmes

Semaine n°1 3764 1316 2448

Semaine n°2 3811 1198 2613

Semaine n°3 3917 1210 2707

Semaine n°4 3846 1218 2628

(a) France 2

Nombre de segments total Programmes Inter-programmes

Semaine n°1 4705 931 3774

Semaine n°2 5044 1022 4022

Semaine n°3 5330 1057 4273

Semaine n°4 5397 1084 4313

(b) TF1

Tableau 3.1 – Segments résultant du découpage effectué à partir des répétitions.

maine utilisée pour l’apprentissage. Les deux dernières semaines du corpus sont de réelles

semaines de test sans aucun lien avec l’apprentissage. La figure 3.13 illustre cette utilisation

des semaines du corpus.

Figure 3.13 – Utilisation des semaines du corpus pour l’apprentissage et le test de la

classification de portions de 24 heures avec prise en compte d’un historique d’une semaine.

3.3.2 Protocole d’évaluation

Nous évaluons la classe attribuée à chaque segment par notre méthode. Pour évaluer

la classe attribuée à un segment, nous la comparons avec la classe réelle du segment. Cette

classe réelle est obtenue par mise en correspondance des segments découpés

automatique-ment et des segautomatique-ments de la vérité terrain établis manuelleautomatique-ment. Un segautomatique-ment découpé est

mis en correspondance avec le segment de la vérité terrain qui le chevauche le plus.

Dans un système de classification, des matrices de confusion sont utilisées pour

l’éva-luation. Chaque ligne d’une matrice de confusion correspond à l’ensemble des segments

qui appartiennent à une seule classe réelle. La répartition de ces segments dans chaque

colonne indique dans quelle classe les segments ont été classés par notre méthode. Une

clas-sification de bonne qualité maximise la diagonale principale de la matrice pour laquelle la

classe de la colonne correspond à la classe de la ligne. Dans notre système, nous utilisons

une colonne supplémentaire ∅pour représenter les segments qui n’ont pas été classés.

Un exemple de matrice de confusion pour 2 classes A et B est donné dans le tableau 3.2.

Une bonne classification maximise m

1

etm

5

par rapport à m

2

,m

3

,m

4

et m

6

.

A B ∅

A m

1

m

2

m

3

B m

4

m

5

m

6

Tableau 3.2 – Exemple de matrice de confusion pour 2 classes A et B.

Dans le cas particulier des matrices de confusion à 2 classes, un cœfficient peut être

calculé pour représenter la corrélation entre les classes réelles et les classes attribuées par

notre méthode. Il fournit une mesure globale de la qualité de la classification. Il est lié aux

cœfficients de corrélation de Pearson. Ce cœfficient noté P hi est obtenu par la formule

suivante :

P hi= m

1

m

5

−(m

2

+m

3

)(m

4

+m

6

)

p

(m

1

+m

2

+m

3

)(m

1

+m

4

+m

6

)(m

5

+m

2

+m

3

)(m

5

+m

4

+m

6

) [1,1].

3.3.3 Expériences 1 : classification des segments en segments de