• Aucun résultat trouvé

Utilisation de la prosodie

Si notre tâche de structuration de documents multimédias est principalement mise en œuvre à travers les transcriptions automatiques de la parole contenues dans les émissions, il est important de prendre en compte un maximum d’indices offerts par la multimodalité de nos données, tout en conservant à l’esprit notre souci de généricité. Dans cette optique, nous avons choisi d’utiliser la prosodie, d’une part, parce qu’elle peut être extraite de façon non supervisée et, d’autre part, parce que cette information est un élément crucial de la communication parlée.

La relation qui existe entre les mots prononcés et leur prosodie est souvent comprise comme étant la différence entrece que l’on ditetcomment on le dit. Là où les mots décrivent le contenu lexical de la parole prononcée, la prosodie décrit la manière dont ces mots sont prononcés. La prosodie peut refléter diverses caractéristiques de l’énonciation : l’état émotionnel du locuteur ; si un énoncé est une déclaration, une question, ou un ordre ; si le locuteur est ironique ou sarcastique ; s’il met l’accent sur un énoncé. De plus, le fait qu’un énoncé soit accentué, ou mis en évidence dans le discours de façon intentionnelle, peut indiquer que l’information portée par cet énoncé est une information nouvelle ou importante du point de vue du locuteur

Bilan du chapitre 29

(Hirschberg, 2002). En effet, dans (Crestani, 2001), l’auteur montre qu’il existe, dans la langue anglaise, un lien direct entre l’accentuation acoustique d’un terme et sa valeur informative.

Nous proposons dans cette thèse d’étudier l’impact de la prosodie sur des techniques de segmentation thématique et de mise en relation de segments thématiques de documents en langue française.

Afin d’associer des informations acoustiques à nos données télévisuelles, deux caractéris-tiques sont extraites de chaque mot plein d’un document : l’énergie (intensité), présentant le niveau sonore perçu, et la fréquence fondamentale (pitch), traduisant la proéminence d’une syllabe ou d’un mot prononcé par un locuteur. Le choix de ces deux critères repose sur le fait qu’il existe une corrélation entre l’augmentation de leur valeur pour un mot donné w et le statut informatif de ce mot.

Pour chaque document de notre corpus, les valeurs d’intensité et de pitch sont extraites pour chaque fenêtre de 0,01 seconde du fichier audio par le biais du logiciel Praat (Boersma and Weenink, 2002). Les valeurs sont ensuite normalisées pour chaque locuteur grâce à un z-score. La segmentation en locuteurs de l’émission est générée par le système de reconnaissance automatique de la parole Irene décrit dans le chapitre 2. Cette segmentation en locuteurs étant imparfaite1, cette normalisation reste approximative.

Les transcriptions automatiques sont ensuite alignées avec les informations acoustiques grâce aux limites temporelles associées à chacun des mots par le système de reconnaissance automatique de la parole. Un mot étant généralement associé à plusieurs valeurs d’intensité et de pitch – la durée de prononciation d’un mot est globalement supérieure à 0,01 seconde –, quatre stratégies ont été utilisées pour calculer le score d’un mot. La première stratégie,Max, consiste à associer au mot la valeur maximale observée pour chaque fenêtre de 0,01 seconde. Pour les techniques Moyenne etET, la moyenne et l’écart-type sont calculés, à partir des scores de chacune des fenêtres, puis associés à w. Finalement, la stratégie Min consiste à conserver la valeur minimum d’intensité et de pitch.

Chaque mot wapparaissant dans les transcriptions est ainsi associé à deux scores i(w)∈

[0,1]etp(w)∈[0,1]traduisant respectivement l’intensité et le pitch de ce mot. Une troisième valeur b(w) combinant ces deux scores est également calculée. Afin de pénaliser fortement les mots associés à une faible valeur de d’intensité ou de pitch, la multiplication entre ces deux valeurs a été préférée au calcul de la moyenne.

3.3 Bilan du chapitre

Ce chapitre, ainsi que les précédents, nous ont permis de présenter les bases sur lesquelles repose notre travail de thèse : les méthodes de structuration mises en place, les spécificités de nos données et les indices utilisés pour pallier ces particularités. Avec le chapitre suivant s’ouvre une nouvelle partie de notre thèse consacrée à la segmentation thématique linéaire. Dans le chapitre 4, sont exposées les différentes techniques de segmentation thématique exis-tantes ainsi que la méthode retenue dans notre travail. Cette méthode est ensuite adaptée aux transcriptions automatiques de vidéos professionnelles, grâce à l’utilisation des indices présentés dans ce chapitre. L’intégration de ces informations et leur impact sont décrits dans le chapitre 5. Les méthodes de structuration proprement dites sont, finalement, exposées dans la dernière partie du manuscrit, correspondant aux chapitres 6 et 7.

1

Bien que les segments partageant une même classe sont associés à un même locuteur, l’ensemble des segments prononcés par un locuteur donné peut être réparti dans plusieurs classes.

Deuxième partie

Segmentation thématique

Chapitre 4

Détection de rupture et maximisation de la cohésion lexicale pour la

segmentation thématique linéaire : état de l’art et positionnement

La segmentation thématique linéaire consiste à mettre en évidence la structure sémantique d’un document. Pour cela, les algorithmes développés cherchent à détecter de façon automa-tique les frontières délimitant les segments thémaautoma-tiquement cohérents. Si la segmentation thématique d’un texte constitue un objectif en tant que tel, elle est également utilisée comme point de départ de nombreux travaux de traitement automatique des langues, notamment en résumé automatique. Dans ce cadre, certains auteurs, (Angheluta et al., 2002; McDonald and Chen, 2002) ou (Boguraev and Neff, 2000) entre autres, réalisent une étape préalable de segmentation thématique, autorisant l’extraction des différents éléments abordés dans le docu-ment, dans le but de dégager les principaux faits à inclure dans le résumé. De même, certaines études de recherche d’information passent par une phase de segmentation thématique afin de comparer la requête fournie par l’utilisateur à des parties thématiquement cohérentes extraites des documents, et améliorer, ainsi, la mesure de similarité entre documents et requête (Mof-fat et al., 1994; Chan, 2000). De plus, les auteurs de (Hearst and Plaunt, 1993) ont montré qu’indexer des segments thématiquement homogènes permettait d’accroître les performances d’une tâche de recherche d’information comparativement à l’indexation classique. Finalement, la segmentation thématique est employée, comme nous l’avons vu dans le chapitre 1, pour la détection et le suivi d’événements au sein de documents télévisuels (Wu et al., 2006; Ide et al., 2005). De façon analogue à ces travaux, la phase de segmentation thématique linéaire développée dans cette thèse peut constituer la première étape des méthodes de structuration automatique de documents télévisuels.

De très nombreux travaux se sont penchés sur la tâche de segmentation thématique li-néaire, de documents textuels ou audiovisuels, en employant des indices de natures variées : linguistique (Litman and Passonneau, 1995), acoustique (Hirshberg and Nakatani, 1998),etc.

Cette thèse se caractérisant par une volonté de développer des techniques applicables à diffé-rents types d’émissions, nous avons souhaité utiliser une méthode de segmentation thématique fondée sur la cohésion lexicale, n’exploitant donc pas des indices trop spécifiques à certains programmes. La cohésion lexicale est à la base de nombreuses études, qui peuvent se diviser en

deux grandes familles. Les méthodes locales, qui consistent à détecter localement les ruptures de la cohésion lexicale apparaissant dans le document pour définir les frontières thématiques, et les méthodes globales, qui reposent sur la mesure de la cohésion lexicale et cherchent à maximiser la valeur de la cohésion lexicale des segmentations obtenues. Les deux types de méthodes de segmentation, habituellement employés indépendamment l’un de l’autre, étant à nos yeux complémentaires, l’objectif de ce chapitre est double. Tout d’abord, nous présentons dans la section 4.2 un état de l’art des différentes techniques de segmentation thématique, qu’elles soient locales ou globales. Puis, nous proposons une approche originale consistant à fusionner les deux types de méthode afin d’obtenir une segmentation thématique capable de fournir des segments à la fois très cohérents et très différents les uns des autres. Cette approche est décrite dans la section 4.3.

Cependant, avant de rentrer dans le détail des techniques de segmentation, nous souhaitons aborder la problématique de la définition du thème. En effet, bien que de nombreux travaux aient cherché à formaliser cette notion, elle reste extrêmement intuitive. Nous commençons donc ce chapitre par un panorama des différentes formalisations proposées dans la littérature, avant de nous intéresser, plus particulièrement, à la définition du thème dans le cadre de la segmentation de données audiovisuelles et de présenter celle adoptée dans cette thèse.