• Aucun résultat trouvé

7.2 Segmentation hiérarchique de programmes TV

7.2.1 Modification de la probabilité généralisée

7.2.1.4 Résultats

Les trois modifications de la probabilité généralisée décrites précédemment ont été testées sur sept émissions Envoyé Spécial transcrites automatiquement par le système Irene. Ce corpus a été préféré à ceux précédemment utilisés car il présente une structure hiérarchique plus importante, chaque reportage étant découpé en différents points de vue, ce qui n’est pas toujours le cas de ceux présents dans les journaux télévisés et les émissionsSept à Huit. Les segmentations de référence ont été obtenues en découpant manuellement les émissions en thèmes et sous-thèmes, donnant lieu à deux niveaux de hiérarchie, le premier contenant 26 frontières et le second 2465. Si les segments du niveau de hiérarchie supérieur sont longs et de taille relativement stable, ceux du second niveau possèdent des caractéristiques plus proches de celles des corporaJT etSept à Huit, c’est-à-dire segments courts, peu de répétitions, etc.

comme le montre le tableau 7.3.

Les différentes modifications ont également été testées sur un sous-ensemble de quatre émissions transcrites manuellement. L’utilisation de ce corpus de transcriptions manuelles va nous permettre d’isoler les effets liés aux erreurs de transcription de l’analyse des résultats fournis par les changements dans la méthode de calcul de la probabilité généralisée.

Une segmentation de niveau hiérarchique supérieure à été obtenue pour les émissions, transcrites manuellement et automatiquement, grâce à l’algorithme de Utiyama et Isahara. Les performances obtenues pour cette segmentation, rappel et précision égaux à 100% dans le cas des transcriptions manuelles et à 94,7%6 pour les transcriptions automatiques, nous

5

Nous tenons à remercier Monica Corlay pour le travail effectué sur l’annotation et la segmentation thé-matique manuelle des différentes émissions.

6

Segmentation hiérarchique de programmes TV 93 30 35 40 45 50 55 40 45 50 55 60 Precision Rappel

Baseline interpolation normalisation

25 30 35 40 45 50 35 40 45 50 55 60 Precision Rappel

Baseline interpolation normalisation

transcriptions manuelles transcriptions automatiques

Fig. 7.1 – Segmentation thématique de segments thématiquement homogènes utilisant la méthode classique, une interpolation des modèles de langues et une normalisation de la pro-babilité généralisée

permettent de considérer que la qualité de la segmentation de niveau hiérarchique supérieure n’a pas d’influence, dans ce travail, sur celle des segmentations de niveaux inférieurs.

Nous avons tout d’abord évalué l’influence de la normalisation de la probabilité générali-sée, que nous avons comparée avec l’impact de l’interpolation des modèles de langue présentée au chapitre 5. L’interpolation des modèles de langues (associée à un poids λ = 0,4), qui a montré son utilité pour gérer une taille de segments thématiques faible, permet d’améliorer la qualité de la segmentation des segments de niveau hiérarchique supérieur en sous-segments thématiques. En effet, la figure 7.1 nous montre que, pour les transcriptions manuelles et automatiques, la courbe verte représentant l’interpolation est bien au-dessus de la rouge cor-respondant à la segmentation obtenue avec un calcul de la cohésion lexicale classique. Sur cette figure, nous pouvons également constater que les résultats obtenus pour la segmentation en sous-segments sont relativement faibles, la valeur de la mesure F1 étant égale à 37,7 sur les transcriptions automatiques et à 47,7 sur les transcriptions manuelles. Cette faible qualité des résultats justifie la mise en place de méthodes pour adapter l’algorithme de segmentation thématique linéaire à la tâche de segmentation thématique hiérarchique.

Cette figure nous présente également les résultats fournis par la normalisation de la pro-babilité généralisée (courbe bleue). Nous constatons que l’impact de cette modification est beaucoup plus élevé sur les transcriptions manuelles que sur les transcriptions automatiques, la normalisation n’ayant presque pas d’influence sur ces dernières. Cette différence est liée aux erreurs de transcription qui ont un impact négatif important sur la normalisation de la probabilité généralisée. En effet, un mot w apparaissant une fois dans le sous-segmentSij et deux fois dans le segment Si est associé à une valeur de probabilité généralisée normalisée égale à 0,52 et n’est pas considéré comme caractéristique du sous-segment, la moitié de ses oc-currences étant située à l’extérieur du sous-segment. Cependant, si l’occurrence située dans le segment Si n’est pas reconnue par le système de reconnaissance de la parole, le motwva être considéré comme étant très caractéristique du segment – et associé à une valeur de probabilité généralisée de 1,22 – toutes ses occurrences apparaissant à l’intérieur du sous-segment.

Nous avons également étudié l’impact de la modification inspirée de la divergence de hiérarchique supérieur : l’une des frontières dans l’émission diffusée de 10 octobre 2008 est décalée de 5 minutes par rapport à la segmentation de référence.

30 35 40 45 50 55 40 45 50 55 60 Precision Rappel Baseline interpolation divergence divergence + repetitions divergence MLT 25 30 35 40 45 50 35 40 45 50 55 60 Precision Rappel Baseline interpolation divergence divergence + repetitions divergence MLT

transcriptions manuelles transcriptions automatiques

Fig. 7.2 – Segmentation thématique de segments thématiquement homogènes utilisant la méthode classique et une modification de la probabilité généralisée inspirée de la divergence de Kullback-Liebler

Kullback-Liebler sur les corpora transcrits manuellement et automatiquement. Les résultats obtenus grâce à cette modification, présentés sur la figure 7.2, montrent que la divergence, telle qu’elle est définie dans l’équation (7.4), dégrade les résultats de la segmentation (courbe verte). Cette dégradation est liée au fait que la définition ne prend pas en compte le nombre d’occurrences des mots dans les segments ; or la cohésion lexicale calculée dépend fortement de la répétition des mots. En ré-introduisant cette information (équation (7.5)), nous constatons que la modification de la probabilité généralisée améliore de façon significative les perfor-mances de l’algorithme de segmentation. Cette amélioration est par ailleurs plus marquée sur les transcriptions automatiques – et surpasse les résultats obtenus grâce à la technique d’interpolation des modèles de langue – que manuelles ce qui nous laisse à penser que les distributions de probabilités au sein des transcriptions manuelles sont plus similaires dans ces données. Cette observation n’est pas surprenante si l’on considère que les erreurs de transcrip-tion introduisent dans les transcriptranscrip-tions automatiques des mots totalement indépendants du reste du vocabulaire utilisé dans le document, alors qu’il existe une certaine cohérence dans le vocabulaire des segments transcrits manuellement. La dissimilarité entre les distributions de probabilité a également été calculée en comparant les probabilités d’apparition des mots dans le sous-segmentSij sachant le modèle de langue∆ij et la probabilité de leur apparition sachant le modèle de langue ∆T estimé sur l’émission complète. Cette dernière expérience fournit des résultats moins satisfaisants pour les deux types de transcription. Les courbes notées MLT (pour Modèle de Langue estimés sur la Transcription complète) sont, en effet, en-dessous des courbes divergence + repetitions. Cette tendance s’explique, selon nous, par le fait que, lors de la comparaison avec la transcription de l’émission complète, trop de mots sont pénalisés. En effet, comme nous l’avons montré dans le tableau 7.1, certains mots appa-raissent exclusivement dans les sous-segments qu’ils caractérisent, comme hassan ou légume. Cependant, des mots commereportage ousoir, qui sont effectivement caractéristiques de leur sous-segments et n’apparaissent (presque) pas ailleurs dans le segment englobant, sont pré-sents dans le reste de la transcription. Ainsi, 80% des occurrences du motsoir apparaissant dans le segment sont situées dans le sous-segment mais seulement 25% de celles trouvées dans l’émission entière sont localisées dans le sous-segment. Le poids de ces mots dans le calcul de la cohésion lexicale va donc être diminué de façon inappropriée.

Segmentation hiérarchique de programmes TV 95 30 35 40 45 50 55 40 45 50 55 60 Precision Rappel Baseline

interpolation proportion MLTproportion

25 30 35 40 45 50 35 40 45 50 55 60 Precision Rappel Baseline

interpolation proportion MLTproportion

transcriptions manuelles transcriptions automatiques

Fig. 7.3 – Segmentation thématique de segments thématiquement homogènes utilisant la méthode classique et une modification de la probabilité généralisée prenant en compte la proportion d’apparitions des mots à l’intérieur et à l’extérieur des sous-segments

Finalement, nous avons adapté l’algorithme de segmentation thématique linéaire à une tâche de segmentation hiérarchique à partir de l’idée qu’un mot est plus ou moins bien repré-senté par le modèle de langue du sous-segment Sij, en fonction de sa proportion d’apparitions dans ce sous-segment par rapport au reste du segment. À partir des résultats présentés sur la figure 7.3, nous pouvons constater que la méthode proportion permet d’améliorer la qualité de la segmentation pour les deux types de transcription. Pour les transcriptions manuelles, nous constatons que les meilleurs résultats sont obtenus lorsque le facteur p(w) représente la proportion d’apparitions du mot w dans le sous-segment par rapport au segment et non par rapport à l’émission complète, ce qui s’explique par le fait que ce calcul de proportion d’apparition de w dans le sous-segment a plus de sens, comme nous l’avons expliqué dans le paragraphe précédent. Cependant, nous observons la tendance inverse sur les transcriptions automatiques. En effet, dans ce cas, la cohésion lexicale calculée en prenant en compte la proportion d’apparitions des mots dans la transcription complète (courbe proportion MLT) fournit les meilleurs performances. Ce comportement peut être lié à la présence d’erreurs de transcription dans les transcriptions automatiques, ces erreurs dégradant l’estimation des mo-dèles de langue ∆i et∆T. Cependant, la quantité de transcriptions utilisées pour estimer le modèle de langue∆T étant plus importante que celle prise en compte lors du calcul de∆i, les erreurs de transcription sont lissées dans le premier cas. Ceci explique, selon nous, le fait que la technique prenant en compte la proportion d’apparitions des mots dans Sij par rapport à T conduise à une plus grande amélioration des performances de l’algorithme.

Ainsi, la pénalisation des mots apparaissant tout au long du segment thématique de niveau hiérarchique supérieur permet de favoriser la prise en compte de mots caractéristiques des sous-segments lors du calcul de la cohésion lexicale. En effet, les modifications de la méthode du calcul de la probabilité généralisée augmentent les valeurs de la mesure F1, pour les transcriptions automatiques, de 6,4 points dans le cas de la technique appelée divergence et de 5.3 points pour la proportion.