• Aucun résultat trouvé

Définition de Marandin

Dans son article (Marandin, 1988), Marandin étudie le texte à deux niveaux afin de pro-poser sa représentation du thème. Tout d’abord, il met en place une approche de morphologie discursive à travers l’étude de la chaîne-objet, puis il travaille au niveau de la compréhension des énoncés en différenciant thème configuré et thème inféré. Ces trois notions – chaîne-objet, thème inféré et thème configuré – vont être explicitées par la suite.

Marandin étudie la manière dont le thème d’un texte peut être compris grâce au concept de chaîne-objet emprunté à Chastain (Chastain, 1975). Une chaîne-objet est définie comme un dispositif de constitution de la dénotation des termes, c’est-à-dire comme le « contenu des-criptif (CD) d’un terme (singulier) relativement à un discours donné ». Le contenu desdes-criptif d’un terme singulier est ce que le discours dit de son référent, quelles propriétés il est supposé avoir,etc.Marandin ajoute à cette définition une différenciation entre chaînes avec répétition de syntagme nominal et chaînes avec démonstratif. Soient les textes

(1) a.La licorne à fourrure d’hermine abondait autour du château de X. b. Un jourLancelot s’amusa à les pourchasser.

c. Piqué au jeu, il les tua toutes.

d. Puis, il les dépouilla et il s’empara de leur précieuse toison. e. Puis trois jours après, il mourrait dans d’atroces douleurs. f.Lancelot fut pleuré de tous ; Isolde s’enferma dans un couvent... (2) (a-e) (f)Lancelot est le prototype du prédateur aveugle.

(3) (a-e) (f)La licorne disparut de la surface de la terre ; elle hante depuis les articles de linguistique et de philosophie.

Ces textes présentent des exemples où un syntagme nominal est répété. L’effet de cette répé-tition est d’insister sur la nature du référent. En effet, selon Chastain, le contenu descriptif de la deuxième occurrence d’un syntagme nominal répété est différente de la première dans

Définition de Marandin 109

la mesure où il s’est enrichi des éléments introduits au fur et à mesure du texte. Par exemple, le CD de Lancelot en (1f) ou (2f) est /celui qui s’appelle Lancelot, qui a pourchassé, tué, dépouillé les licornes et qui est mort après/. C’est en fonction de ce qu’il a accompli qu’il peut être qualifié de « prototype du prédateur aveugle » en (2f). Dans

(4) (a-e) (f)Cette vengeance a frappé de stupeur les contemporains. Les poètes l’ajoutérent à leur répertoire de faits légendaires.

le démonstratifcette vengeance pousse le lecteur à ré-interpréter le texte et notamment l’évé-nement rapporté en (e) : /Lancelot mourir/.

La répétition ou la présence d’un démonstratif associé à un syntagme nominal dans une chaîne-objet font que certains syntagmes nominaux ont la capacité de condenser ce qui est introduit dans cette chaîne. Nous pouvons donc distinguer à l’intérieur d’une chaîne-objet les éléments suivants

– la tête de chaîne constituée d’un syntagme nominal introduisant un objet, – les segments composés d’éléments qui spécifient l’objet,

– le fermoir constitué d’un syntagme nominal qui a la capacité de condenser la chaîne :

Lancelot en (1f) et (2f),la licorne en (3f) etcette vengeance en (4f).

On peut alors faire une différence entre chaînes fermées et chaînes ouvertes, les premières voyant apparaître un syntagme nominal fermoir qui n’est pas mis à jour dans les secondes. Ces deux types de chaînes ont un rapport au thème différent. Dans une chaîne fermée, un syntagme nominal fermoir nomme un objet à partir des spécifications introduites dans la chaîne-objet. L’occurrence du syntagme nominal fermoir a pour effet de transformer ce qui est introduit dans les énoncés où se réalise la chaîne-objet en propriétés caractérisant et spécifiant l’objet qu’il nomme. Les chaînes fermées permettent donc qu’on comprenne les énoncés où elles apparaissent comme étant à propos de quelque chose, ce « quelque chose » étant nommé par le syntagme nominal fermoir. Dans le cas des chaînes ouvertes, le choix du thème n’est pas guidé par cet indice. Comment dès lors nommer le thème de ces énoncés ? Lorsqu’une chaîne-objet ne possède pas de syntagme nominal fermoir, c’est la façon dont est reçu le texte, la lecture de celui-ci, qui va permettre d’inférer le thème. Le lecteur va construire une histoire et un sens qui mettent en jeu l’interprétation des énoncés afin de définir le thème du texte. On passe alors d’une dimension linéaire du thème, abordé grâce aux chaînes fermées, à une dimension synthétique. L’inférence d’un thème peut se déclencher grâce à des transitions temporelles, passage du passé simple à l’imparfait ou du présent au passé par exemple. En effet, lorsqu’il y a une discontinuité dans la présentation de plusieurs événements et que le texte n’explicite pas les raisons de ces discontinuités, alors le travail de lecture du texte peut rechercher, en produisant un thème inféré, à expliciter ce qui rassemble ou disjoint les événements décrits. Cependant cette notion d’inférence, expliquée ici grâce à des indices temporels, ne permet pas de nommer le thème de façon claire et le choix d’un terme lexical n’est pas abordé dans (Marandin, 1988).

À partir du concept de chaînes-objets et après avoir précisé les différences entre chaînes ouvertes et chaînes fermées, Marandin propose cette définition du thème du discours en diffé-renciant thème configuré (à l’aide des syntagmes nominaux fermoirs) et thème inféré (à l’aide de transitions temporelles par exemple).

(i) Un thème est un individu composite, c’est-à-dire un individu relativement à un texte. (ii) Le contenu descriptif du terme qui le nomme est représentable comme un agrégat

subsumant d’autres individus dans leurs interrelations, telles qu’elles sont introduites dans les énoncés, reconstruites dans la compréhension et constitutives d’une interprétation. Dans le cas d’un thème configuré :

(iii) Le nom du thème est le syntagme nominal en position de fermoir d’une chaîne-objet ; (iv) Les composants du contenu descriptif sont les segments de la chaîne-objet.

Dans le cas d’un thème inféré :

(iii) Aucune contrainte textuelle ne pèse sur le nom du thème ;

(iv) Les composants du contenu descriptif sont abstraits de la suite d’énoncés. Dans les deux cas :

(v) La tête nominale du syntagme nominal projette une interprétation sur les composants du contenu descriptif.

Annexe B

Adaptation de l’algorithme de segmentation thématique aux

spécificités de documents audiovisuels

Lors de l’adaptation de l’algorithme de segmentation thématique aux spécificités des trans-criptions automatiques de vidéos professionnelles, de nombreux paramétrages ont été testés, que ce soit pour l’intégration des mesures de confiance ou lors de la prise en compte d’in-formations sémantiques ou prosodiques. Nous présentons, dans cette annexe, l’influence des différents paramètres pour chacune des sources d’informations employées. Les tableaux pré-sentés ici contiennent les valeurs de la mesure F1 obtenues pour une valeur de paramètre α optimum (équation (7.9), page 97), c’est-à-dire pour laquelle le nombre de frontières retournées est le plus proche du nombre de frontières de référence.

B.1 Intégration des mesures de confiance

Dans cette section, nous décrivons les résultats obtenus pour l’intégration des mesures de confiance lors de la segmentation des journaux télévisés (tableau B.1) et des émissions de reportages Sept à Huit (tableau B.2).

Dans ces tableaux, la ligne grise correspond aux valeurs calculées lors de l’introduction des mesures de confiance lors de l’estimation du modèle de langue seulement, avec δ1 variant de 0 à 4, et la colonne grise représente les valeurs fournies par la prise en compte de ces indices uniquement lors du calcul de la probabilité généralisée. La cellule gris foncé correspond, de fait, à la valeur de la mesure F1 pour une segmentation sans intégration des mesures de confiance (avecδ1 2 = 0;cf.section 5.1.1 pour les formules concernées). Dans ces tableaux, nous pouvons observer que l’utilisation des mesures de confiance conduit à une amélioration statistiquement significative (test de Student) de la qualité de la segmentation thématique. En effet, la valeur de la mesure F1 est augmentée de 2 points pour les journaux télévisés et de 5 points pour les émissionsSept à Huit. De plus, ces résultats montrent que l’impact des mesures de confiance est différent pour les deux corpora, selon que ces indices sont intégrés durant l’estimation du modèle de langue ou durant le calcul de la probabilité généralisée. Pour les journaux télévisés, les résultats sont meilleurs lorsque les mesures de confiance sont utilisées pendant le calcul de la probabilité généralisée plutôt que lors de l’estimation du modèle de langue, tandis que pour le corpus d’émissions de reportages, les expériences conduisent à la

Tab.B.1 – Intégration des mesures de confiance pour la segmentation de journaux télévisés δ2 1 0 0,5 1 1,5 2 2,5 3 3,5 4 0 59,7 60,4 60,7 61,0 61,1 60,9 60,9 59,7 59,1 0,5 60,4 60,7 61,5 61,5 60,9 60,9 60,8 59,5 58,8 1 61,1 61,5 61,7 61,1 60,9 60,9 60,6 58,9 58,8 1,5 61,2 61,6 61,3 60,9 60,5 60,1 60,2 58,9 58,8 2 61,3 61,4 61,4 60,8 60,2 59,9 59,9 58,9 58,7 2,5 61,2 61,5 61,1 60,5 60,1 59,6 59,6 58,6 58,1 3 61,6 61,5 60,8 60,4 60,0 59,5 59,4 58,1 57,9 3,5 60,6 60,5 59,3 58,8 58,8 58,3 58,1 57,8 57,8 4 60,9 60,6 59,3 59,0 58,9 58,1 57,8 57,8 57,7

Tab. B.2 – Intégration des mesures de confiance pour la segmentation d’émissions de repor-tagesSept à Huit

δ2 1 0 0,5 1 1,5 2 2,5 3 3,5 4 0 54,9 55,0 56,8 54,6 54,7 55,6 58,3 59,9 59,1 0,5 53,4 56,1 55,3 56,1 54,7 54,7 55,0 57,9 58,2 1 55,3 56,5 55,4 55,6 54,7 55,0 55,0 59,1 58,2 1,5 54,4 55,6 55,6 56,3 54,7 55,0 55,0 56,9 58,6 2 54,9 56,0 56,3 55,0 55,3 55,3 57,0 56,1 56,1 2,5 55,1 55,7 56,3 55,0 55,3 57,0 57,0 56,1 56,5 3 55,3 56,8 56,3 55,0 56,7 57,0 58,6 57,7 58,1 3,5 55,3 56,8 56,3 56,3 58,3 58,6 58,6 57,7 57,7 4 54,5 56,8 56,3 59,9 59,5 58,6 57,7 57,7 57,1

conclusion inverse. Finalement, une dernière différence existant entre les deux corpora est la valeur optimale de δ1 et δ2. Pour le corpus de journaux télévisés, la meilleure valeur de la mesureF1est obtenue pour des paramètresδ1etδ2 relativement petits (c’est-à-dire tous deux égaux à1) tandis que pour les émissionsSept à Huit les meilleurs résultats sont fournis grâce à des valeurs deδ1 etδ2 plus importantes. Cette différence s’explique par le fait que, pour des grandes valeurs deδ,c(wi

j)δdevient négligeable sauf pour les mots dont la mesure de confiance est très proche de 1. La proportion de mots associés à une mesure de confiance inférieure à 0,9 étant plus importante dans le corpus d’émissions de reportages (36% pour les émissions

Sept à Huit contre 33% pour les journaux télévisés), l’impact des mesures de confiance est plus perceptible sur ces données, et des valeurs de paramètres plus élevées conduisent à une plus forte amélioration.