• Aucun résultat trouvé

Méthode retenue

4.2 Segmentation thématique

6.1.2 Méthode retenue

Pour atteindre notre objectif de structuration thématique linéaire, nous avons choisi de mettre en place une technique classiquement utilisée en recherche d’information. Notre sys-tème de mise en relation des segments thématiquement homogènes, similaire à celui présenté dans (Yang et al., 1999), se divise en deux étapes (cf.Figure 6.1). Premièrement, chaque seg-ment est représenté par un vecteur de mots, pondérés par leur score tf-idf, puis une mesure

Fig. 6.1 – Mise en relation de segments thématiquement homogènes

de similarité est calculée entre chaque couple possible de vecteurs afin d’évaluer la proximité thématique de chaque couple de segments. Les paires de segments dont les vecteurs sont asso-ciés à une mesure de similarité supérieure à un seuilǫsont finalement considérés comme liés sémantiquement par notre système.

L’évaluation de la similarité entre segments thématiques reposant essentiellement sur la comparaison de leurs vecteurs représentatifs, la qualité de ces vecteurs est un élément crucial du système. Le calcul des vecteurs caractéristiques consiste à associer à chaque mot du corpus un score traduisant son importance au sein du segment. Nous avons choisi dans ce système d’utiliser le critère tf-idf, couramment utilisé en recherche d’information pour traduire la capacité d’un mot à discriminer le document dans lequel il se trouve par rapport à une collection de textes de référence. Étant donné un mot w d’un document d, la pondération

tf-idf est calculée comme le produit d’une pondération localetf(w, d)qui exprime la fréquence de wdansd, et d’une pondération globaleidf(w,Ω) liée au nombre d’occurrences de wdans les documents de la collection de référence1. Cette pondération globale mesure l’importance du terme w dans l’ensemble de la collection et permet de favoriser les mots apparaissant fréquemment dans le document mais peu dans la collection de référence, considérés comme plus discriminants.

Le score tf-idf a été calculé grâce à l’outil kiwi développé par Lecorvé et al. (Lecorvé et al., 2008). Parmi les différentes variantes existant pour la mise en œuvre des pondérations

1

La collection de référence utilisée dans ce travail est composée de 800 000 articles extraits du journal

Le Monde entre 1987 et 2003. Ce corpus ayant servi à estimer les probabilités du modèle de langue et le

vocabulaire du système de transcription automatique de la parole employé pour transcrire nos données, le vocabulaire apparaissant dans nos transcriptions n’est pas très différent de celui de la collection de référence.

Structuration par la mise en relations de segments thématiques : principe 71

locales et globales (Singhal, 1997), nous utilisons dans ces travaux celles définies de la façon suivante :

tf(w, d) = freq(w, d) max

x∈d freq(x, d) avec freq(w, d) = |w|d

|d| (6.1)

et

idf(w,Ω) =log |Ω| |w|Ω

(6.2) où|d|désigne le nombre de mots ded,|Ω|désigne le nombre de documents dans la collection, et |w|d et|w|Ω désignent respectivement le nombre d’occurrences dew dansdet le nombre de documents deΩqui contiennent le motw. Finalement, une dernière étape de normalisation nous permet d’obtenir le score inspiré de la recherche d’information, Sir(w), compris entre0

et 1:

Sir(w) = tf(w, d)×idf(w,Ω) max

x∈d(tf(x, d)×idf(x,Ω)) (6.3) Pour chacun de nos corpora, ce score est calculé pour chaque mot2 du vocabulaire, c’est-à-dire l’ensemble des mots apparaissant au moins une fois dans les segments. Chaque segment étant ainsi caractérisé par un vecteur de mots associés à une pondération tf-idf. De plus, certains segments thématiques pouvant être très courts et ne contenir que peu de répétitions de mots, nous appliquons en aval une lemmatisation sur chacune de nos transcriptions afin de rassembler les mots partageant un même lemme.

Finalement, la proximité thématique des segments est évaluée grâce à la mesure cosinus. Cette mesure de similarité renvoie, pour les deux vecteurs représentatifs des segments A et B, une valeur comprise entre0et1,1correspondant à une similarité très forte entre les deux segments. Formellement, cette mesure est définie par :

cos(A, B) = PL j=1ajbj q PL j=1a2 j q PL j=1b2 j , (6.4)

avec Lle nombre de lemmes sélectionnés, associés aux scores les plus élevés, pour caractériser le contenu des segments. Le calcul de la similarité entre les différents segments a été effectué à l’aide de vecteurs composés de 100 lemmes. Diverses expériences ont, en effet, montré que les résultats obtenus étaient meilleurs avec cette valeur, bien que la différence entre les perfor-mances ne soit plus significative dès lors que la valeur de L est supérieure à 60, et ceci pour les deux corpora.

Ce système de mise en relation de segments thématiques a été testé sur des segments extraits de 8 journaux télévisés et de 13 émissions de reportages Sept à Huit. Ces segments correspondant aux reportages éventuellement associés aux plateaux de lancement et de fin, tel que présenté dans la section 4.1.2, auraient pu être extraits de façon automatique grâce aux techniques décrites dans les deux chapitres précédents. Cependant, nous avons choisi d’opérer cette extraction de façon manuelle afin d’exclure de notre analyse des résultats les effets induits par de potentielles erreurs de segmentation. Nous obtenons grâce à cette seg-mentation manuelle 177 segments pour les journaux télévisés et 72 pour les émissions Sept à Huit. La mise en relation de référence a été effectuée manuellement en reliant deux segments abordant des sujets proches, deux segments traitant de la campagne présidentielle étant, par exemple, considérés comme reliés sémantiquement, contrairement à deux segments discutant

2

de politique de manière plus générale. 205 liens ont ainsi été créés pour le corpus de jour-naux télévisés et 56 pour les émissions de reportages. Les résultats obtenus par le système sont évalués grâce à des mesures de rappel, représentant la proportion de liens sémantiques pertinents retrouvés, et de précision, traduisant la proportion de liens sémantiques pertinents parmi ceux retrouvés.