Étiquetage de sujet avec recherche de vérité

Dans la deuxième partie de la thèse, nous étudions la possibilité d’étendre séman- tiquement les graines de n-uplet, c’est-à-dire en recherchant d’autres éléments correspondants des différents groupes d’éléments dans les graines. Considérez les graines de n-uplet suivantes: <Indonésie, Jakarta, Rupiah Indonésienne>, <Singapour, Sin- gapour, Dollar de Singapour>, <France, Paris, Euro>. En examinant les premier, deuxième et troisième éléments de chaque graine, on peut supposer que ces groupes appartiennent respectivement à la classe sémantique «pays», «capitale» et «nom de la devise». Cependant, ces étiquettes de classe ne sont pas définies a priori, mais peuvent être déduites à partir des exemples d’éléments fournis. Une fois que l’étiquette correcte de chaque groupe d’éléments est identifiée, nous pouvons ensuite développer l’ensemble d’exemples en utilisant les autres membres de la classe. Par exemple, «Malaisie», «Royaume-Uni», «Allemagne» appartiennent tous à la classe sémantique «pays» et peuvent donc être utilisés pour développer le premier groupe d’éléments. Ce type de tâche consistant à rechercher automatiquement l’étiquette pour un ensemble d’exemples est étroitement lié à l’étiquetage de rubrique.

Une approche de modélisation de sujet telle que Latent Dirichlet Allocation [1] (LDA) apprend des groupes de mots décrivant le mieux les sujets latents sous-jacents à une collection de documents. Après avoir appris les mots décrivant chaque sujet, il faut ensuite trouver l’étiquette qui convient pour ce sujet. Bien que réalisable, l’étiquetage manuel exige un travail difficile et peut prendre beaucoup de temps dans certains scénarios. Cela motive la tâche de l’étiquetage de sujet. L’étiquetage de rubrique traite de la recherche automatique d’étiquettes pour les modèles de rubrique. Généralement, la tâche est principalement axée sur deux sous-tâches: la génération d’étiquettes candidates et le classement. La première consiste à récupérer ou à générer un ensemble d’étiquettes candidates, tandis que la dernière applique un mécanisme de classement sur les étiquettes candidates pour sélectionner l’étiquette la plus pertinente pour le sujet. De nombreuses méthodes ont été proposées pour abor-

B.4. ÉTIQUETAGE DE SUJET AVEC RECHERCHE DE VÉRITÉ 131 der la tâche, y compris celles qui exploitent les bases de connaissances[111, 128, 105] et utilisent des algorithmes d’exploration de données ou d’apprentissage automatique [107, 110, 115]. Dans [105], les auteurs génèrent un ensemble d’étiquettes candidates principales et secondaires à partir de Wikipedia, tandis que le processus de classement est effectué sur les caractéristiques des étiquettes candidates à l’aide d’un modèle de régression à vecteur de support. Bhatia et al. [107] utilise égale- ment Wikipedia comme source pour les libellés candidats, mais ceux-ci utilisent des documents et des mots incorporés pour représenter les libellés dans le processus de classement.

Dans cette recherche, nous proposons de tirer parti de l’étiquetage par sujet pour étiqueter automatiquement l’ensemble des éléments dans les graines de n-uplet don- nées. Nous traitons la classe sémantique comme le sujet tandis que les éléments de la classe sont l’ensemble de mots décrivant le sujet correspondant. Nous transformons le problème de la proposition de l’étiquette d’un sujet en domaine de recherche de la vérité (découverte de la vérité) où nous trouvons l’étiquette de chacun des N premiers mots du sujet. L’étiquette d’un sujet est ensuite sélectionnée parmi les étiquettes des N premiers mots correspondants.

B.4.1 Approche proposée

Nous proposons d’étiqueter automatiquement les sujets générés via des modèles de sujets en analysant un graphe hétérogène reliant les différents objets et concepts car- actérisant le problème: sujets, mots, articles Wikipedia, informations sémantiques auxiliaires et étiquettes candidates. Le graphique est traité à l’aide d’algorithmes de découverte de vérité afin de produire une liste classée d’étiquettes candidates pour chaque sujet. Nous décrivons d’abord la manière dont nous générons les étiquettes de candidats, puis détaillons le processus de classement.

Générer des étiquettes de candidat Notre méthode de génération d’étiquettes candidates s’inspire de Lau et al. [105]. Nous exploitons une base de connaissances. Dans notre cas, il s’agit de Wikipedia2_{, en tant que source des libellés candidats.} Chaque article de Wikipedia est associé à une liste de catégories. Les catégories sont placées au bas de la page vers la fin de chaque article. Nous utilisons ces catégories comme étiquettes de candidats. Nous appliquons les deux méthodes suivantes pour extraire les étiquettes candidates pour le modèle de sujet. Pour détailler chaque méthode, considérons les mots suivants (charles, prince, roi, diana, royale, reine, famille, parker, britannique, bowles) qui sont triés par ordre décroissant en fonction du poids attribué par LDA. Tout d’abord, nous utilisons chaque mot pour interroger Wikipedia et obtenir le top 10 des articles. De chacun des articles, nous extrayons les catégories en tant qu’étiquettes candidates. Ensuite, nous construisons des n- grammes à partir de l’ensemble de mots et répétons le processus.

Classement des étiquettes Après avoir généré un ensemble d’étiquettes candidates, l’étape suivante consiste à classer les étiquettes et à sélectionner l’étiquette la plus pertinente pour chaque sujet. Pour réaliser cette tâche, nous construisons

132 APPENDIX B. RÉSUMÉ EN FRANÇAIS d’abord un graphique d’entités avec des rubriques, des mots, des articles Wikipedia et des libellés candidats en tant que nœuds, tandis que les relations entre eux en sont les contours. Nous générons ensuite des faits à partir du graphe d’entités en tant qu’entrée dans l’algorithme de découverte de la vérité. Enfin, nous sélectionnons l’étiquette de chaque sujet en fonction du résultat de l’algorithme de découverte de vérité.

Le processus de construction du graphe d’entités commence par les K sujets que nous désignons dans le graphe par Topic-1, Topic-2, ..., Topic-K. Chacun des sujets a un ensemble de mots, nous ajoutons donc tous les mots au graphique en tant que nœuds. Nous établissons un lien entre chaque sujet et son ensemble de mots en traçant des contours entre eux. Nous proposons deux méthodes pour récupérer les étiquettes candidates, c’est-à-dire utiliser chaque mot ou n-grammes pour interroger Wikipedia. Dans cette dernière approche, nous générons d’abord les n-grammes à partir de l’ensemble des mots Wi, ajoutons les n-grammes au graphique et relions chaque mot utilisé pour composer les n-grammes. Nous remplaçons ensuite Wi par l’ensemble des n-grammes. à partir de chaque élément (mot / bigramme) de Wi, nous récupérons un ensemble d’articles de Wikipedia. Ainsi, nous relions chaque mot / bigramme et les articles Wikipedia résultants dans le graphique. Nous extrayons ensuite des catégories sur chaque article en tant qu’étiquettes candidates, nous les ajoutons au graphique et nous créons des liens entre les articles et les étiquettes candidates.

L’algorithme de découverte de la vérité prend en entrée un ensemble de faits proposés par certaines sources concernant les valeurs de propriétés de certains objets. L’objectif de l’algorithme de découverte de la vérité est de déterminer la valeur réelle des propriétés ainsi que le niveau de fiabilité de chaque source. Conformément à cette définition, dans cette recherche, nous définissons les objets, les sources et les faits comme des mots décrivant les sujets, des documents (articles Wikipedia) et des étiquettes de candidats extraites des articles, respectivement. Nous générons l’entrée dans les algorithmes de découverte de la vérité à partir du graphique d’entités construit dans notre processus de génération d’étiquettes candidates. Nous commençons par récupérer un ensemble de nœuds W avec le type de «mot». Pour chaque mot

w dans W , nous récupérons ses nœuds enfants D où le type de nœuds est «docu-

ment». Dans le graphe construit, un nœud de type «mot» peut être directement lié à un «document» ou via les n-grammes. Dans ce dernier cas, nous trouvons d’abord les nœuds «n-grammes» dérivés du nœud «mot», puis nous collectons les nœuds «document» dans les n-grammes. Les algorithmes de découverte de la vérité ne reconnaissent pas les relations entre les objets et les sources (mots et documents), nous ne tenons donc pas compte des n-grammes lors de la génération des faits. Pour chacun des documents, nous récupérons les étiquettes et générons les faits sous forme de n-uplets comprenant le mot, l’étiquette et le document.

B.4.2 Évaluation des performances

Nous commençons l’expérience en explorant le processus de génération d’étiquettes candidates. Nous appliquons l’approche suivante aux trois jeux de données que nous

B.5. DÉFINIR L’ÉTIQUETAGE 133

Dans le document Advanced information extraction by example (Page 149-152)