Interpolation - Segmentation thématique - Structuration automatique de flux télévisuels

4.2 Segmentation thématique

5.1.3 Interpolation

55 60 65 70 75 80 45 50 55 60 65 70 Precision Rappel Baseline ParMot - 2 Total - 20000 25 30 35 40 45 50 55 60 50 55 60 65 70 75 80 85 90 Precision Rappel Baseline ParMot - 2 Total - 90000

corpusJT corpus Sept à Huit

Fig. 5.4 – Prise en compte des relations sémantiques lors de la segmentation thématique de journaux télévisés et d’émissions de reportages Sept à Huit

Tab.5.1 – Influence des relations sémantiques sur les erreurs de transcription Sans relations ParMot₂

Transcriptions 65,56 68,94 automatiques3 Transcriptions 72,96 73,3 manuelles

Le second objectif des relations sémantiques consiste à pallier les erreurs de transcriptions en diminuant le poids des mots mal transcrits dans le calcul de la cohésion lexicale. Nous pensons, en effet, que les mots erronés ont peu de chances d’être reliés sémantiquement aux autres mots du segment et ne seront ainsi pas mis en avant par les relations sémantiques, contrairement aux mots correctement transcrits. Afin de tester cette hypothèse, nous avons pris en compte des relations paradigmatiques, sélectionnées grâce à la méthode ParMot, lors de la segmentation de journaux télévisés transcrits manuellement. Dans ce cas, l’intégration des relations sémantiques ne permet d’augmenter la valeur de la mesure F₁ que de 0,34 point seulement (cf. tableau 5.1). Si l’on compare ce gain avec celui observé sur les émissions transcrites automatiquement, nous constatons qu’il est presque 10 fois plus élevé pour les transcriptions automatiques, ce qui nous permet d’affirmer que l’intégration de relations sé-mantiques dans l’algorithme de segmentation thématique est effectivement utile pour pallier les erreurs de transcription présentes dans nos données.

5.1.3 Interpolation

Dans les émissions télévisuelles, et particulièrement dans les journaux télévisés, les seg-ments thématiques peuvent être très courts. Une critique qui peut être formulée à l’égard de la méthode de calcul de la cohésion lexicale développée dans (Utiyama and Isahara, 2001) est que, pour ces petits segments, le modèle de langue ∆i risque d’être mal estimé. Afin de gérer ces petits segments, la technique originale que nous proposons consiste à utiliser une estima-tion plus sophistiquée des modèles de langue, obtenue en interpolant les modèles de langue appris au niveau des segments avec un modèle de langue estimé sur la transcription entière.

Deux techniques d’interpolation ont été employées – l’interpolation de probabilité (Jelinek and Mercer, 1981) et l’interpolation des comptes des mots (Bacchiani and Roark, 2003).

La première méthode d’interpolation testée consiste à interpoler les probabilités. Dans ce cas, la cohésion lexicale d’un segmentSi est mesurée de la façon suivante :

lnP[Si;Si, T] = ni X j=1 ln(λP[wⁱ_j; ∆i] + (1−λ)P[w_jⁱ; ∆t]) = ni X j=1 ln      λ ^Cⁱ⁽^w i j) +ξ X u∈VT Ci(u) +ξ ^{+ (1}−λ) ^C^t⁽^w i j) X u∈VT Ct(u)      , (5.4)

avec ∆i le modèle de langue estimé sur le segment Si et∆t celui calculé sur la transcription de l’émission complète T.C_t(u) est le compte d’un mot u dans T et C_i(u) le compte de ce mot dansSi.ξ est un lissage correspondant au lissage de Laplace lorsqueξ= 1.

Plutôt que d’interpoler les probabilités, l’interpolation des modèles de langue peut égale-ment être effectuée à partir de l’interpolation des comptes des mots. Dans ce cas, la cohésion lexicale d’un segmentSi est définie par :

lnP[Si;Si, T] = ni X j=1 lnP[wⁱ_j; ∆it] = ni X j=1 ln      λ(Cs(wi j) +ξ) + (1−λ)Ct(wi j) X u∈VT λ(C_i(u) +ξ) + (1−λ)C_t(u)      , (5.5)

avec ∆_it le modèle de langue du segment S_i interpolé avec celui de la transcription T. Il est à noter que, comme pour l’interpolation des probabilités, les mots apparaissant fréquemment dansT vont être associés à une forte probabilité, indépendamment de leur fréquence dansSi, alors que ceux peu fréquents dansT seront toujours associés à une faible probabilité, liée àλ. Cependant, grâce à la renormalisation par la somme de tous les comptes, cette observation sera probablement moins dommageable dans le cas de l’interpolation des comptes. De ce fait, cette technique est, selon nous, plus susceptible de fournir des résultats cohérents avec ceux attendus.

Les résultats obtenus grâce aux deux méthodes d’interpolation des modèles de langue sont présentés sur la figure 5.5. La courbe rouge représente la segmentation calculée avec une es-timation classique des modèles de langue tandis que les deux autres courbes correspondent aux différentes techniques d’interpolation. Nous constatons que, pour les deux corpora, l’in-terpolation des comptes fournit les meilleurs résultats. En effet, pour le corpus de journaux télévisés, la valeur de la mesure F₁ est augmentée de 4,9 points lors de l’interpolation des comptes contre 2,3 points pour l’intégration des probabilités, augmentations statistiquement significatives selon le test de Student. Ces valeurs sont, par ailleurs, grandement diminuées

La valeur de la mesureF₁associée aux transcriptions automatiques est différente de celle affichée dans les tableaux de l’annexe B. Cette différence s’explique par le fait que les expériences reportées dans ce tableau ont été effectuées sur un corpus composé des 8 journaux télévisés correspondant à ceux transcrits manuellement.

Utilisation de la prosodie 61 40 45 50 55 60 65 70 75 80 45 50 55 60 65 70 75 Precision Rappel Baseline compte (0.2) probabilite (0.5) 25 30 35 40 45 50 55 60 50 55 60 65 70 75 80 Precision Rappel Baseline compte (0.5) probabilite (0.9)

corpusJT corpus Sept à Huit

Fig. 5.5 – Interpolation des modèles de langue pour améliorer la segmentation thématique de journaux télévisés et d’émissions de reportages Sept à Huit. Pour les deux techniques d’interpolation des modèles de langue, la valeur entre parenthèses correspond à la valeur optimale du paramètre ξ

pour le corpus Sept à Huit puisque l’interpolation des comptes améliore la qualité de la seg-mentation de 0,7 point seulement, tandis que l’interpolation des probabilités n’offre pas de gain comparativement à la segmentation classique. Ce comportement des deux techniques d’interpolation des modèles de langue s’explique par le fait que, comme nous l’avons men-tionné plus tôt, l’interpolation des modèles de langue associe aux mots fréquents du texte des valeurs de probabilité fortes quelle que soit leur fréquence dans le segment, alors que les mots peu fréquents sont toujours associés à une valeur de probabilité faible. Ce comporte-ment n’est cependant pas aussi marqué dans le cadre de l’interpolation des comptes, grâce à la normalisation proposée dans l’équation (5.5), ce qui rend cette méthode plus efficace. Les courbes rappel/précision, présentées en figure 5.5 montrent également que l’interpolation des modèles de langue a beaucoup moins d’impact sur le corpus d’émissions de reportages que sur celui composé de journaux télévisés. Cette remarque s’explique aisément par le fait que la longueur moyenne des segments dans les émissions de reportages est beaucoup plus longue (8,6 minutes) que celle des segments des journaux télévisés (1,6 minute). De ce fait, les modèles de langue calculés pour représenter les segments dans la méthode de segmentation de base sont déjà bien estimés dans le cas des émissions Sept à Huit.

5.2 Utilisation de la prosodie

Dans cette section, nous souhaitons tirer parti de la modalité audio de nos données télévi-suelles. Le but de l’intégration d’informations prosodiques dans le calcul de la cohésion lexicale consiste à traduire l’intention du locuteur et à augmenter l’importance des mots proéminents dans le discours, généralement associés à une valeur informative importante. Favoriser ces mots proéminents a pour objectif de calculer des modèles de langue plus représentatifs des segments et d’obtenir ainsi une évaluation plus juste de la cohésion lexicale. S’il a été montré dans (Tür et al., 2001) que la combinaison d’indices textuels et prosodiques permet d’améliorer la qua-lité de la segmentation thématique de documents en langue anglaise – comparativement à la segmentation opérée avec les deux indices pris séparément –, aucune étude n’a été effectuée, à notre connaissance, sur un corpus français.

40 45 50 55 60 65 70 75 80 45 50 55 60 65 70 Precision Rappel Baseline intensite pitch intensite & pitch

25 30 35 40 45 50 55 60 50 55 60 65 70 75 80 85 90 Precision Rappel Baseline intensite pitch intensite & pitch

corpus JT corpus Sept à Huit

Fig.5.6 – Prise en compte d’informations prosodiques lors de la segmentation thématique de journaux télévisés et d’émissions de reportagesSept à Huit

L’intégration des informations prosodiques se fait de la même manière que la prise en compte des mesures de confiance. Durant la phase d’estimation des modèles de langue, le compte des motsCi(u)est remplacé par la somme des valeurs de scores acoustiques associées à chacune des occurrences de ce mot.

C_i^′′′(u) = ^X wi j=u a(w_jⁱ) , (5.6) avec a(wi j) le score acoustique de wi

j calculé grâce à la technique d’extraction d’informations acoustiques décrite en section 3.2. De cette manière, les mots faiblement proéminents auront moins d’impact dans le calcul de la cohésion lexicale.

Lorsque les informations prosodiques sont intégrées lors du calcul de la probabilité gé-néralisée, la log-probabilité de l’occurrence d’un mot est multipliée par la valeur du score acoustique de l’occurrence de ce mot :

lnP[Si; ∆i] =

j=1

a(wⁱ_j) lnP[W_jⁱ; ∆i] . (5.7)

Finalement, ces informations acoustiques peuvent également être prises en compte à la fois durant l’estimation du modèle de langue et durant le calcul de la probabilité généralisée en remplaçant Ci(u) par C_i^′′′(u) dans l’estimation du modèle de langue.

Les informations acoustiques employées ayant été extraite pour chaque 0,01 seconde du signal, et la durée de prononciation d’un mot étant généralement supérieure à cette valeur, quatre stratégies d’alignement entre ces valeurs et les transcriptions ont été utilisées : Max

qui associe à chaque mot la valeur maximale parmi toutes les informations acoustiques ob-servée pour la durée du mot, Moyenne et ET qui calculent la moyenne et l’écart-type et

Minqui conserve la valeur minimum. Ces techniques d’alignement, combinées aux différents types d’informations acoustiques, intensité ou pitch, ont conduit à un nombre important d’ex-périmentations. Comme pour les relations sémantiques, nous présentons dans ce chapitre les principales tendances observées lors de l’intégration des informations prosodiques, plus de détail pouvant être trouvés dans l’annexe B.

Les courbes rappel/précision, présentées sur la figure 5.6, montrent tout d’abord que l’in-tégration d’informations prosodiques a un impact différent sur la qualité de la segmentation en

Bilan du chapitre 63

fonction du corpus considéré. En effet, si la prosodie permet d’améliorer de façon statistique-ment significative les performances de l’algorithme de segstatistique-mentation dans le cas des émissions de reportages – la valeur de la mesure F₁ est augmentée de 3,7 points lorsque des valeurs de

pitch sont prises en compte lors du calcul du modèle de langue – seul un gain de 1 point est constaté pour le corpus de journaux télévisés. L’écart de performance entre les deux corpora peut être lié, d’une part, à la différence existant dans l’accentuation de la parole au sein des deux émissions, les journalistes commentant les émissions de reportages adoptant un ton très différent de celui employé dans les journaux télévisés. D’autre part, si l’amélioration observée pour les émissions Sept à Huit peut être due à l’utilisation de mots plus caractéristiques lors de l’évaluation de la cohésion lexicale, nous soupçonnons également, au vu des résultats ob-tenus sur les journaux télévisés, que les informations prosodiques agissent de la même façon que les mesures de confiance et que la différence constatée entre les deux corpora s’explique par l’écart entre leur taux d’erreur. Nous pensons en effet qu’il existe une forte corrélation entre les valeurs des mesures de confiance et celles des informations prosodiques, les mots mal reconnus par le système de transcription étant associés à une valeur prosodique faible, tandis que ceux dont la prononciation a été accentuée par le locuteur ont plus de chance d’être mieux reconnu.

5.3 Bilan du chapitre

Dans ce chapitre, nous avons proposé différentes techniques permettant de rendre le critère de la cohésion lexicale plus robuste aux spécificités de programmes télévisuels transcrits, tout en restant suffisamment générique pour être applicable à différents types de données. Nous avons ainsi montré que les relations sémantiques et l’interpolation des modèles de langue améliorent la qualité de la segmentation thématique d’émissions composées de petits segments thématiques et contenant une faible répétition de vocabulaire. De plus, une comparaison entre l’impact des relations sémantiques sur les transcriptions manuelles et automatiques a permis de démontrer que leur intégration atténue l’influence des erreurs de transcription sur le calcul de la cohésion lexicale. Les expériences menées ont également mis en évidence le fait que les mesures de confiance rendent la cohésion lexicale moins sensible à la présence de mots erronés, ces mesures de confiance étant par ailleurs plus efficaces pour des transcriptions associées à un taux d’erreur élevé. L’utilisation d’informations prosodiques sur un corpus francophone a finalement montré que la prise en compte de la multimodalité des données augmente les performances de l’algorithme de segmentation, de façon plus ou moins importante selon le type de programme télévisé considéré.

Si ces différents éléments peuvent être utilisés séparément, il est également possible de les combiner – les différentes combinaison des mesures de confiance, des relations séman-tiques et des techniques d’interpolation des modèles de langue sont présentées en détail dans l’article (Guinaudeau et al., 2011) – mais également de les associer à des informations de rupture de la cohésion lexicale telles que présentées dans le chapitre précédent. De légères améliorations ont ainsi pu être observées lors de la combinaison de certains de ces indices. Par exemple, l’utilisation conjointe de l’interpolation et des mesures de confiance améliore la qualité de la segmentation des journaux télévisés par rapport à leur utilisation séparée. De même, la combinaison des informations de rupture, des mesures de confiance et de l’interpola-tion améliore significativement la précision obtenue, pour une même valeur de rappel (45,1), par rapport à l’utilisation indépendante de ces trois indices. La précision est augmentée de 0,4

point par rapport à l’ajout d’informations de rupture, de 9 points par rapport à l’utilisation des mesures de confiance et de 6,5 points comparativement à l’interpolation des modèles de langue. Certaines combinaisons n’apportent cependant aucun gain. C’est le cas, par exemple, de la prise en compte conjointe des relations sémantiques et de l’interpolation, qui semble re-dondante, les deux indices visant le même objectif, c’est-à-dire la gestion de courts segments thématiques. Dans les cas où aucune amélioration n’est observée, il est cependant important de noter qu’aucune dégradation de la qualité de la segmentation thématique n’a été constatée. Les techniques développées pour adapter le critère de la cohésion lexicale aux spécificités des données télévisuelles produisant des résultats encourageants, plusieurs pistes peuvent être envisagées pour les consolider. Premièrement, l’utilisation d’informations prosodiques offrant un gain de performance important pour le corpus d’émissions de reportages, il semble néces-saire d’éclaircir les raisons de cet apport en étudiant les résultats d’une segmentation théma-tique prenant en compte la prosodie sur un corpus transcrit manuellement. Les transcriptions manuelles utilisées jusqu’à présent ne possédant pas d’informations temporelles associées à chacun des mots, aucune information prosodique n’a pu leur être attachée. Or, afin de dif-férencier le rôle de la prosodie de celui des mesures de confiance, il nous semble important d’étudier leur éventuel apport sur des transcriptions ne contenant pas d’erreurs de transcrip-tion. Deuxièmement, la qualité et le nombre des relations sémantiques introduites ayant un impact important sur la qualité de la segmentation produite, il pourrait s’avérer judicieux d’acquérir des relations sémantiques par le biais de méthodes d’extraction plus sophistiquées et d’évaluer l’impact des méthodes utilisées sur les performances de l’algorithme de segmen-tation. Finalement, l’utilisation des mesures de confiance ayant une influence positive sur la qualité de la segmentation thématique, nous pensons qu’il pourrait être intéressant d’appli-quer l’algorithme de segmentation thématique sur les sorties intermédiaires proposées par le système de reconnaissance automatique de la parole, comme les graphes de mots ou les ré-seaux de confusion. (Mohri et al., 2010) a en effet montré que l’utilisation des hypothèses de transcription plutôt que la transcription finale augmentait les performances d’un algorithme de segmentation thématique fondé sur la détection de ruptures.

L’adaptation de la mesure de la cohésion lexicale aux particularités de nos données télé-visuelles fournissant de bons résultats, nous proposons dans la suite de cette thèse d’utiliser cette phase de segmentation thématique comme première étape de structuration. La troi-sième et dernière partie de ce manuscrit est consacrée à la présentation de deux méthodes de structuration automatique de programmes télévisés. Dans le chapitre 6, nous décrivons les techniques mises en place pour produire unestructuration thématique linéaire visant à mettre en relation des segments thématiquement homogènes extraits d’une collection de documents. Le chapitre 7 est, quant à lui, consacré à un travail plus exploratoire sur lastructuration thé-matique hiérarchique, les programmes télévisés sur lesquels nous avons appliqué l’algorithme de segmentation thématique linéaire possédant une structure hiérarchique importante qui n’a, jusqu’ici, pas été prise en compte.

Troisième partie

Structuration d’émissions

Chapitre 6

Mise en relation de segments thématiquement homogènes

Ce chapitre poursuit l’étude des différentes étapes de structuration automatique de do-cuments audiovisuels en abordant la tâche de structuration thématique linéaire. Cette tâche de structuration a pour objectif de mettre en relation des éléments extraits d’une collection de documents qui abordent des thématiques similaires. Dans notre contexte, elle consiste à associer deux reportages tirés de journaux télévisés ou d’émissions de reportages, dès lors qu’ils traitent d’un fait d’actualité de même nature. La mise en place de cette méthode de

structuration thématique linéaire doit, par exemple, permettre à des utilisateurs d’accéder à tous les éléments d’une collection de documents qui traitent d’un sujet qui les intéresse ou de suivre les évolutions d’un fait d’actualité.

Afin de mettre en place une telle structuration, nous proposons, dans ce chapitre, une méthode associant des segments, obtenus à partir d’une phase de segmentation thématique préalable, partageant une même thématique. Cette association repose principalement sur la comparaison des mots clés caractéristiques des segments, extraits des transcriptions automa-tiques de la parole qu’ils contiennent. Dans la section 6.1, nous exposons, après la description des différentes méthodes disponibles dans l’état de l’art, la technique utilisée pour compa-rer nos segments thématiques. Cependant, si les transcriptions automatiques employées dans notre approche permettent d’accéder au contenu sémantique des reportages considérés, elles n’autorisent pas la prise en compte des spécificités des programmes télévisés. Afin d’adap-ter notre méthode aux particularités de nos données audiovisuelles, nous proposons, dans la section 6.2 de ce chapitre, deux modifications.

Premièrement, nous pensons que l’utilisation d’indices propres à l’oral doit permettre d’améliorer la mise en relation de segments thématiquement homogènes dans le cadre d’émis-sion de télévid’émis-sion. La méthode de base reposant sur la comparaison des mots clés caracté-ristiques, nous souhaitons prendre en compte les mots accentués de façon intentionnelle par le locuteur – probablement associés à une information sémantique forte – lors de la carac-térisation des segments. Pour ce faire, nous utilisons des informations prosodiques, extraites automatiquement de nos données, pour modifier la représentation de nos segments théma-tiques. Cette modification, ainsi que les résultats obtenus grâce à elle sur nos deux corpora de test, sont présentés dans la section 6.2.1.

Deuxièmement, le calcul de la similarité entre deux segments thématiques employé dans la méthode de base peut être amélioré en y intégrant des relations sémantiques. L’objectif de

ces relations est, d’une part, de faire le lien entre deux segments abordant le même sujet par le biais d’un vocabulaire différent. D’autre part, la prise en compte des liens sémantiques existant entre les différents mots caractéristiques des segments doit permettre de pallier les erreurs de transcription présentes dans nos données, comme nous le présentons dans la section 6.2.2.

Finalement, nous décrivons dans ce chapitre deux applications développées grâce à la technique de segmentation thématique décrite dans les chapitres précédents et à la mise en relations de segments thématiques. Ces applications, toutes deux employées sur des journaux télévisés, sont détaillées dans la section 6.3.

6.1 Structuration par la mise en relations de segments

théma-tiques : principe

6.1.1 État de l’art

Le suivi de sujet ou d’événement au sein d’une collection de documents a largement été étudié à travers le projet de recherche Topic Detection and Tracking (TDT) lancé en 1997. L’objectif de ce projet consiste à développer des méthodes permettant de mettre en relation des segments de document textuels ou audiovisuels (par le biais de transcriptions) abordant des sujets similaires. Cette mise en relation doit permettre aux utilisateurs de suivre les évolutions

Dans le document Structuration automatique de flux télévisuels (Page 72-82)