Analyse d’erreurs - Extraction non supervisée de termes-clés

4.3 Extraction non supervisée de termes-clés

4.3.3 Analyse d’erreurs

Dans cette section, nous analysons les erreurs de TopicRank. La première source d’erreurs est le mauvais groupement de certains candidats en sujets. La seconde source d’erreurs concerne la spécialisation des termes-clés extraits.

Les erreurs liées au groupement en sujets sont dues à la présence, dans le même groupe, de candidats ne véhiculant pas le même sujet, auquel cas la stratégie de sélection du terme- clé du sujet peu échouer. La principale cause de cela est la simplicité de notre mesure de similarité. En effet, elle ne tient compte ni du sens des candidats selon leur contexte, ni de leur sémantique latente. Par ailleurs, elle n’est pas adaptée à toutes les tailles de candidats. Par exemple, si deux candidats sont constitués de deux mots dont un en commun, alors ils sont groupés. Concrètement, nous observons le groupement de « représentation structurale » avec « représentation culturelle », parce qu’ils partagent le même nom, ou encore le groupement de « force économique » avec « délabrement économique », parce qu’ils partagent le même adjectif.

Méthode Linguistique (fr) Sciences de l’info. (fr) Archéologie (fr)_P _R _F _P _R _F _P _R _F _PChimie (fr)_R _F

n-grammes 7,4 8,5 7,8 7,8 8,4 7,8 12,0 8,2 9,5 7,1 6,0 6,1

/(N|A)+/ 11,2 13,1 11,9 12,1 12,8 12,1 27,5 18,7 21,8 13,8 11,1 11,8

NP-chunks 11,4 13,3 12,1 12,5 13,2 12,5 28,5 19,3 22,5 14,1 11,3 12,0

LR-NP 11,8 13,8 12,5 12,2 12,8 12,2 29,9 20,3 23,7 14,6 11,5 12,3

TABLE4.13 – Résultat de TopicRank sur les données Termith, selon la méthode de sélection

des termes-clés candidats utilisée

Méthode _PDEft (fr)_R _F Wikinews (fr)_P _R _F SemEval (en)_P _R _F _PDUC_R(en)_F n-grammes 8,2 15,0 10,5 22,7 24,8 23,3 13,2 9,2 10,7 9,5 13,3 10,9 /(N|A)+/ 11,7 21,7 15,1 35,0 37,5 35,6 14,9 10,3 12,1 18,4 23,8 20,4 NP-chunks 11,6 21,6 14,9 33,7 35,9 34,2 15,7 10,6 12,7 16,1 21,1 18,0 LR-NP 11,6 21,5 14,9 33,9 36,0 34,3 16,6 11,5 13,5 17,9 23,7 20,1

TABLE 4.14 – Résultat de TopicRank sur DEft, SemEval et DUC, selon la méthode de

sélection des termes-clés candidats utilisée

blèmes de sous- et sur-spécialisation. Le problème de sous-spécialisation survient lorsque le terme-clé extrait est moins précis que le terme-clé de référence. Nous pouvons citer, par exemple, « papillons » qui est extrait à la place de « papillons mutants » dans l’article Wi- kinews Fukushima fait muter les papillons13_{. Le problème de sur-spécialisation survient}

lorsque le terme-clé extrait est plus précis que le terme-clé de référence. Nous pouvons citer, par exemple, « député Antoni Pastor » qui est extrait à la place de « Antoni Pastor » dans l’article Wikinews Îles Baléares : le Parti populaire exclut le député Antoni Pastor pour avoir défendu la langue catalane14. La présence simultanée de ces deux problèmes les rend difficiles à résoudre. Pour beaucoup, il s’agit là d’un problème d’évaluation (Zesch et Gurevych, 2009).

4.3.4 Bilan

Nous avons présenté TopicRank, une méthode non supervisée qui groupe les termes-clés candidats en sujets, détermine quels sont les sujets les plus importants, puis extrait le terme- clé candidat qui représente le mieux chacun d’eux. Cette nouvelle méthode offre plusieurs avantages vis-à-vis des précédentes méthodes à base de graphe. Le groupement des termes- clés potentiels en sujets distincts permet de rassembler des informations relatives au même sujet et le choix d’un seul terme-clé pour représenter un sujet important permet d’extraire un ensemble de termes-clés non redondants (pour k termes-clés extraits, exactement k sujets sont couverts).

TopicRank a quelques limitations. Premièrement, le groupement que nous proposons est « naïf » et il serait intéressant d’expérimenter d’autres méthodes de groupement en sujets. Lorsque les données disponibles le permettent, nous pourrions par exemple suivre Liu et al. (2010); Zhang et al. (2013) en utilisant LDA. Le choix du termes-clés d’un sujet peut aussi

13_{http://fr.wikinews.org/w/index.php?oldid=432477}

être amélioré. Une solution intéressante serait d’utiliser une méthode de titrage automatique de sujets (Lau et al., 2011). Étant donner les candidats d’un sujet, une telle méthode peut proposer celui qui le représente le mieux, voir une unité textuelle qui n’est pas présente dans le document.

4.4 Conclusion

Nous avons présenté deux contributions à l’extraction automatique de termes-clés. Dans un premier temps, nous avons analysé les propriétés linguistiques des termes-clés de réfé- rence de trois de nos collections de données, puis nous avons exploité cette analyse pour sélectionner les termes-clés candidats plus finement, en portant une attention particulière à leurs adjectifs. Dans un second temps, nous avons proposé une nouvelle méthode à base de graphe pour l’ordonnancement par importance des sujets d’un document et l’extraction d’un terme-clé représentatif de chacun des sujets les plus importants.

5

Indexation par termes-clés en

domaines de spécialité

«

La multiplication des bases de données et l’information devenue « mar- ché » (donc rentable) ont entraîné d’autres corps de métier à s’intéresser à la pratique de l’indexation. Mais ce sont les bibliothécaires et documenta- listes qui en ont défini les méthodes, les usages et les outils.

»

— Guinchat et Skouri (1996)

5.1 Introduction

Dans ce chapitre, nous nous intéressons à l’indexation par termes-clés en domaines de spé- cialité. Dans la littérature, l’indexation par termes-clés se divise en deux catégories : l’extraction de termes-clés, qui fournit des termes-clés apparaissant dans le contenu du document, et l’assignement de termes-clés, qui fournit des termes-clés appartenant à un vocabulaire contrôlé et n’apparaissant pas nécessairement dans le document. Alors que dans la littérature, l’indexation par termes-clés est principalement réalisée au seul moyen de l’extraction de termes-clés, nous montrons que l’assignement de termes-clés joue un rôle important en domaines de spécialité.

Nous commençons par décrire le comportement des indexeurs professionnels qui main- tiennent les bases des données bibliographiques de l’Inist (Institut de l’information scienti- fique et technique), puis nous en proposons une automatisation. Les indexeurs professionnels assignent à chaque document des termes-clés du domaine (d’un vocabulaire contrôlé), et extraient des termes-clés spécifiques au document (hors du vocabulaire contrôlé), voir des concepts nouveaux dans le domaine. Pour reproduire ce comportement, nous étendons nos travaux sur TopicRank en intégrant dans le graphe de sujets les entrées du vocabulaire du domaine.

Enfin, nous présentons les premiers résultats d’une campagne d’évaluation manuelle de nos travaux en domaines de spécialité. Pour cette campagne, nous proposons un pro- tocole et des métriques permettant d’évaluer deux aspects : la pertinence des termes-clés extraits/assignés et la quantité d’information importante capturée par les termes-clés.

Dans le document Automatic Domain-Specific Keyphrase Annotation (Page 72-77)