Exemples de systèmes d’Annotation Sémantique

Les systèmes d’AS se répartissent en fonction

• des choix méthodologiques tenant aux deux composants présentés ci-dessus : repérage automatique par Extraction d’Information ou non, degré de systématisation de la désambi- guïsation lors du décodage de la relation entre texte et modèle,

• du type de modèle adopté : ressources ontologiques publiques, ancrées dans le réseau des LD, ou ontologie et population construites dans le cadre du système lui-même,

• à la place attribuée aux entités, selon qu’elles constituent le focus principal du système ou non.

KIM (Ontotext)

La plateforme KIM [Kir+04 ; Pop+03], développée par la société Ontotext21_{est destinée à la mise en}

œuvre de l’AS ainsi qu’aux objectifs d’indexation et de recherche documentaire qui lui sont liés. KIM présente d’une part une ontologie (KIMO pour KIM ontology) et une base de connaissances constituée d’instances suivant le schéma de l’ontologie, et d’autre part une architecture d’Extrac- tion d’Information dérivée de GATE [Cun+11b] et étendue à la tâche d’AS relativement à KIMO. Un serveur associé comprend les fonctionnalités d’indexation, de récupération de documents et d’interface avec l’utilisateur. KIM se concentre sur l’AS des entités, de façon similaire à notre objectif d’enrichissement de contenus textuels.

Les points principaux faisant de KIM un exemple intéressant de système d’AS sont :

1. une association non restrictive de la base de connaissances et de ses instances au schéma ontologique de KIMO,

2. une base de connaissances peuplée d’un grand nombre d’instances d’entités à partir de différentes sources,

3. un usage extensif des techniques de TAL et d’Extraction d’Information existantes, permettant la découverte de nouvelles instances lors de l’AS,

4. une sémantique des entités liée à leur description individuelle et non seulement à leur classe conceptuelle.

1 KIMO présente 250 classes et 100 propriétés modélisant les types d’entités les plus communs,

d’après une exploration de corpus journalistique dont la nature est jugée pertinente pour l’ob- tention d’un degré de généralité satisfaisant dans le cadre de tâches d’AS variées. Elle présente un faible nombre d’axiomes, au titre d’un souci de simplicité formelle et algorithmique dans la perspective de traitements ultérieurs. La base de connaissances qui l’accompagne, que nous nommons KIM-KB pour KIM knowledge base, peut être considérée séparément : KIMO constitue en effet le schéma de modélisation adopté pour KIM-KB, sans que les informations stockées pour chaque instance ne doivent exactement lui correspondre. Autrement dit, une instance de KIM-KB peut être associée à des informations non prévues dans KIMO, ce qui permet la représentation d’individus dont l’association à l’ontologie est encore non effectuée ou impossible au vu des classes définies.

2 et 3 KIM-KB a fait l’objet d’une population initiale semi-automatique à partir de ressources

librement disponibles, résultant en plus de 200 000 instances d’entités :

• 36 000 lieux, avec une hiérarchisation conceptuelle en sous-types comparable à celles de GeoNames et d’Aleda (cf. infra section 1.3),

• 147 000 organisations, dont les grandes organisations internationales (ONU, OTAN...), 140 000 entreprises de niveau international, et des informations de localisation les mettant en relation avec les instances de lieux,

• 6 000 personnes.

La population de KIM-KB est destinée à être enrichie au cours de l’AS elle-même : l’utilisation de techniques de TAL et d’Extraction d’Information permet en effet, notamment par l’application

2. Mise en œuvre de l’Annotation Sémantique 101 de motifs surfaciques, de repérer des mentions d’entités ne présentant pas encore de ressource formelle dans KIM-KB, et ainsi de proposer de nouvelles entités pour cette population.

Chaque instance de KIM-KB comprend : • une identification par URI,

• une association à l’une des classes de KIMO, avec un degré de spécification maximale, • une description au format RDF,

• un ensemble d’interconnexions avec d’autres ressources,

• un ensemble de variantes lexicales pour l’anglais, le français et l’espagnol.

4 Les auteurs de la plateforme KIM insistent sur la nécessité, pour les entités, de recevoir un

lien de nature référentielle vers une instance de KIM-KB afin que la sémantique recherchée par la tâche d’AS soit effectivement formalisée et exploitable. Une classification des mentions d’entités suivant la modélisation conceptuelle de l’ontologie est en effet présentée comme insuffisante à ce titre. L’intégration de techniques d’Extraction d’Information, au centre de la méthodologie de KIM, fait l’objet d’une adaptation importante destinée à les étendre au niveau sémantique. Le caractère non formel et non lié des modèles employés en Extraction d’Information traditionnelle est présenté comme la différence fondamentale avec une annotation véritablement sémantique qui, pour les entités, doit atteindre le niveau des instances en supplément d’un typage ontologique. Cet argument constitue un point important de notre approche du problème de l’identification d’entités, qui sera abordé de façon systématique dans la suite de ce travail.

Fonctionnement Partant de l’architecture de GATE, complétée par des extensions de niveau

sémantique et sur le modèle ontologique de KIMO, KIM opère le repérage des mentions d’entités à annoter suivant une méthodologie traditionnelle de Reconnaissance d’Entités Nommées. Celle-ci repose sur

• un prétraitement textuel surfacique ;

• un automate représentant les motifs à reconnaître ;

• un lexique constitué des variantes lexicales définies pour les instances de KIMO ; ces variantes sont typées en fonction des instances qu’elles peuvent dénoter ;

• un ensemble d’informations sur lesquelles peuvent s’appuyer les règles de reconnaissance, par exemple une liste des suffixes de noms d’organisation (Inc.)

Les règles de reconnaissance sont adaptées à la tâche par un ensemble de spécifications relatives au modèle ontologique. Une règle pourra ainsi permettre la reconnaissance et la classification d’une entité de type montagne plutôt que lieu. Un lien est ensuite établi pour chaque mention repérée avec une instance de KIM-KB, sur la base de la correspondance entre variante lexicale et instance. Les ambiguïtés possibles à ce niveau — cas où une mention peut correspondre à plusieurs instances — sont évoquées par les auteurs, qui apportent la réponse suivante :

Il est difficile de répondre à ces questions dans un contexte général. KIM, comme de nombreux autres systèmes, implémente une série d’heuristiques afin d’y répondre avec une précision raisonnable. (in [Kir+04], notre traduction)

Bien que des variantes lexicales soient définies pour les instances d’entités en anglais, français et espagnol, les langues effectivement traitées par KIM ne font pas l’objet d’une indication explicite dans les descriptions de la plateforme.

Évaluation KIM intègre de façon directe un composant de Reconnaissance d’Entités Nommées

pour la mise en œuvre de l’AS à laquelle ce système est dédié. Les auteurs pointent l’absence de métrique établie pour l’AS22_{, ainsi que celle de données de référence annotées manuellement}

selon le schéma ontologique dont il s’agit ici ou tout autre ontologie pouvant être mise en correspondance avec KIMO. L’évaluation de KIM porte donc sur la Reconnaissance d’Entités Nommées uniquement ; l’établissement des liens avec les instances d’entités, par ailleurs peu spécifié en termes méthodologique dans la présentation de KIM, n’en fait pas partie. Les résultats obtenus par KIM en Reconnaissance d’Entités Nommées sont reproduits dans la table 3.8 pour les types principaux. La F-mesure adoptée (colonne F1) accorde un poids égal à la précision et au rappel.

Type Précision Rappel F1

person 87,61 90,87 89,09

organization 82,29 71,30 76,03

location 92,77 89,77 91,23

Moyenne 87,56 83,98 85,45

Table 3.8 : Résultats de KIM en Reconnaissance d’Entités Nommées (adapté de [Kir+04]). L’approche générale de l’AS par KIM repose ainsi sur un modèle et une base de connaissances pertinents pour le traitement des entités, ainsi que sur un usage des techniques de TAL et d’Extraction d’Information ayant fait preuve d’efficacité et de maturité après plusieurs décennies de recherches. Le problème de la mise en relation des mentions avec les instances d’entités auxquelles elles réfèrent est cependant abordé en peu de détails, bien qu’il puisse être considéré comme le centre des difficultés et des solutions à apporter pour la mise en œuvre de l’AS.

DBpedia Spotlight

Spotlight23 _{s’inscrit dans l’effort communautaire de développement de DBpedia, qui constitue la}

ressource principale sur laquelle ce système s’appuie. La relation de DBpedia avec Wikipedia est également intégrée à Spotlight, où l’encyclopédie joue le rôle de corpus de données linguistiques dont diverses informations sont dérivées et exploitées dans le processus d’AS. Le modèle ontologique de Spotlight est donc celui de DBpedia, présenté à la section 1.3 et dont environ 62% des données sont classifiées en tant qu’instances de concepts. Contrairement à KIM, Spotlight cible ainsi directement le réseau des LD. L’AS réalisée par Spotlight concerne les concepts et entités communs et généraux. La langue traitée par Spotlight est l’anglais ; la mise au point de versions du système pour d’autres langues, à partir des éditions linguistiques correspondantes de DBpedia, relève d’initiatives libres de la communauté de développement autour de DBpedia, encouragée par les auteurs.

Mendes et al. [Men+11a] présentent Spotlight comme un système comparable à la méthodologie générale proposée précédemment. Il s’agit d’attribuer à toute occurrence de mention de concept ou d’instance de DBpedia l’URI correspondante. Spotlight s’appuie :

• sur la structuration des informations rendue disponible par DBpedia : chaque concept et instance est associé à un ensemble de variantes lexicales, obtenues à partir de Wikipedia (titre d’article, liens de redirection, pages de désambiguïsation, wikilinks — cf. section 1.3 et figure 3.4),

22. Le sujet de l’évaluation de la tâche d’Annotation Sémantique ainsi que des données annotées qui lui sont nécessaires sera abordé dans la suite de ce travail, lors de la présentation de notre système d’identification d’entités (chapitre cha :nomos).

2. Mise en œuvre de l’Annotation Sémantique 103 • sur la distribution des mentions dans le corpus d’articles de Wikipedia : pour chaque concept ou instance, chaque occurrence de l’une de ses mentions dans un wikilink incré- mente un compteur général de fréquence, indiquant un niveau de notoriété et à ce titre comparable à l’attribut poids modélisé dans la base d’entités Aleda (cf. section 1.3) ; le para- graphe d’article dans lequel apparaît une de ces mentions est par ailleurs stocké sous forme de sac de mots, après tokenisation, stemming et filtrage par stoplist24_{. Chaque concept ou}

instance est ainsi associé à la modélisation d’un contexte lexical canonique.

Fonctionnement Spotlight effectue l’AS de contenus textuels en trois étapes principales : Repérage (Spotting) Correspondant au premier composant méthodologique proposé dans la sec-

tion précédente (2.1.1), ce repérage ne fait pas intervenir de techniques particulières relevant de l’Extraction d’Information. Il est réalisé à l’aide de l’outil de traitement de données tex- tuelles LingPipe25 _{dont le module Exact Dictionary-Based Chunker applique l’algorithme de}

repérage de chaîne de Aho et Corasick [AC75] sur la base du lexique de variantes fournis par DBpedia. Toute variante possible est ainsi repérée, avec une priorité à la chaîne la plus longue en cas de chevauchement ou d’imbrication de chaînes, et présentée à l’étape suivante.

Sélection de candidats Pour chaque mention repérée, Spotlight constitue un ensemble de can-

didats possibles pour l’établissement de sa relation référentielle au modèle. Ces candidats sont les concepts ou instances de DBpedia présentant la mention considérée dans leur ensemble de variantes lexicales. Cette étape permet également de définir un lien référentiel par défaut pour la mention, si l’on ne considère pas la seconde opération de sélection de la troisième étape : ce lien par défaut peut correspondre au candidat au niveau de notoriété maximal, tel que défini plus haut (nombre d’occurrence dans Wikipedia).

Désambiguïsation Le choix du candidat adéquat pour l’établissement de la relation référentielle

entre mention et modèle est ramené à un problème de désambiguïsation. Celle-ci porte sur un ensemble de paires de contextes lexicaux, chaque paire représentant un candidat et la mention courante à partir (i) du sac de mots stocké pour chaque candidat à partir de ses occurrences dans Wikipedia, et (ii) du sac de mots correspondant au contexte d’occurrence de la mention courante, dérivé en sac de mots de façon identique au premier.

Chaque paire est ensuite caractérisée par une fonction de similarité : les contextes lexicaux donnent lieu à une modélisation vectorielle, à la manière d’un document en Recherche d’Information, chaque mot constituant un point de l’espace modélisé et recevant un score tficf. Le poids tf (term frequency) mesure la pertinence locale d’un mot pour un document donné, tandis que le poids icf (inverse candidate frequency, distinct du poids idf (inverse

document frequency) usuel en Recherche d’Information, mesure la pertinence d’un mot pour

un candidat donné ; le pouvoir discriminant d’un mot parmi plusieurs candidats est ainsi vu comme inversement proportionnel au nombre de candidats courants auxquels il est associé, et non au nombre total d’instances auxquelles il est associé dans la totalité de DBpedia. Une fonction de similarité cosinus appliquée au vecteur de mots du candidat et celui de la mention assigne un score à cette paire. Toutes les paires (mention, candidat) sont ensuite ordonnées selon ce score de similarité contextuelle. Le candidat présent dans la paire maximisant cette similarité est sélectionné pour l’établissement du lien référentiel entre la ressource et le modèle.

24. Une stoplist est établie par inventaire de mots considérés comme non pertinents pour une analyse textuelle donnée, en général constitué des catégories de mots grammaticaux (prépositions, déterminants, conjonctions, etc.) ainsi que des mots les plus courants dans une langue donnée.

Spotlight définit par ailleurs un ensemble de paramètres de configuration destinés à modifier le comportement du système en fonctions de besoins particuliers d’utilisateurs. Il est ainsi possible de restreindre l’espace du modèle fourni par DBpedia afin de n’obtenir des annotations que sur un ensemble de concepts et d’entités correspondant au domaine traité. Cet espace peut également être réduit par l’élimination d’annotations mettant en jeu des ressources — concepts ou entités — peu communes ; le caractère commun et notoire des ressources est alors modélisé par un nombre minimal de wikilinks pointant vers une ressource considérée. Les ressources considérées comme peu pertinentes en regard du document peuvent être éliminées par la définition d’un seuil de similarité en-deçà duquel une annotation est éliminée. Enfin, au niveau de l’ambiguïté prise en charge par Spotlight, une attention particulière portée sur la précision des résultats peut conduire au rejet des annotations pour lesquelles plusieurs ressources semblent partager une forte similarité, indiquant ainsi une ambiguïté au sein du même domaine contextuel ; l’étape de désambiguïsation définit par ailleurs un paramètre de confiance entre 0 et 1 dont il est possible de fixer un seuil en-deçà duquel l’annotation peut être éliminée.

La figure 3.10 montre une capture d’écran de l’interface de démonstration de Spotlight26_{, sur}

laquelle apparaît le formulaire de paramétrage de la tâche. Les liens obtenus par l’AS effectuée pointent vers les pages Web des ressources DBpedia correspondantes. Spotlight est librement disponible sous sa forme de code source ainsi que comme service accessible via le Web ou sur un serveur local27_.

Wikimeta

Comme Spotlight, Wikimeta, décrit dans [CGO11] aborde la tâche d’AS relativement aux LD en proposant des liens référentiels vers DBpedia. Ce système emploie cependant une modélisation intermédiaire des éléments de connaissance nécessaires à la réalisation de la seconde opératoin de l’AS. Wikimeta repose en effet sur la base NLGbAse, décrite à la section 1.3. NLGbAse dispose, pour chaque ressource, d’un ensemble de variantes lexicales, dont les labels pour l’anglais, le fran- çais, l’allemand, l’italien et l’espagnol, d’un ensemble de mots contenus dans l’article Wikipedia correspondant associés à leur poids tfidf, ainsi que d’une URI l’associant aux LD via DBpedia.

L’opération de repérage des éléments à annoter est accomplie par Wikimeta à l’aide d’un module de Reconnaissance d’Entités Nommées, reposant sur le modèle statistique des CRF [LMP01] et intègre ainsi pleinement les capacités de reconnaissance de l’Extraction d’Information, de fa- çon comparable à KIM, qui utilise des méthodes d’Extraction d’Information symbolique, et à la différence de Spotlight. La Reconnaissance d’Entités Nommées permet notamment de ne pas limi- ter les mentions reconnues à celles correspondant aux variantes lexicales fournies par NLGbAse. Un algorithme dédié à la seconde opération de l’AS, consistant à lier les mentions repérées à la ressource adoptée, identifie ce problème en termes de désambiguïsation entre plusieurs candidats, comme le fait Spotlight. L’ensemble à désambiguïser est constitué des informations de NLGbAse — sac de mots et leur poids tfidf — pour tous les candidats dont la mention constitue une variante lexicale, ainsi que du contexte lexical d’occurrence de la mention, sous forme d’une fenêtre gauche et droite de n mots autour de la mention. Mais Wikimeta envisage trois configurations différentes pour l’étape de désambiguïsation, selon que :

• l’ensemble des candidats est vide : la mention repérée ne correspond à aucune variante lexicale fournie par NLGbAse,

• l’ensemble des candidats contient un seul élément,

26. http://dbpedia-spotlight.github.com/demo/

27. Code source : https://github.com/dbpedia-spotlight/dbpedia-spotlight

Service Web : https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Web-service Serveur local : https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Installation

2. Mise en œuvre de l’Annotation Sémantique 105

Figure 3.10 : Interface Web de démonstration du système Spotlight.

• l’ensemble des candidats contient plusieurs éléments.

Le premier cas est jugé trivial, en l’absence de lien à assigner à l’annotation. Dans les deuxième et troisième cas, Wikimeta applique une mesure de similarité cosinus entre le sac de mots associés à un poids tfidf disponible pour chaque candidat et la fenêtre de contexte lexical de la mention, suivant une modélisation vectorielle de ces contextes comme c’est également le cas pour le système Spotlight. Un seuil de similarité minimale est défini, au-dessus duquel le candidat obtenant la similarité maximale avec la mention est sélectionné pour l’établissement du lien référentiel. Autrement dit, une annotation peut demeurer sans lien après cette étape si aucun des candidats ne dépasse ce seuil de similarité.

Évaluation Comme pour le système KIM, la description de Wikimeta donnée dans [CGO11]

souligne l’absence de métriques ainsi que de données de référence disponibles pour la tâche d’AS. Wikimeta est évalué, pour le français et l’anglais, à l’aide de corpus annotés usuellement destinés à la tâche de Reconnaissance d’Entités Nommées. L’annotation de ces ressources est étendue à la tâche d’AS par les auteurs eux-mêmes, qui procèdent à l’augmentation nécessaire selon une procédure semi-automatique. Le corpus français ESTER (cf. chapitre 2, section 3.1) ainsi

que le corpus du Wall Street Journal28 _{(WSJ), ont été annotés par le système Wikimeta, puis les}

reconnaissances de mentions ainsi que les insertions automatiques de liens ont été manuellement corrigées. La capacité du système à reconnaître les cas ne devant pas donner lieu à un lien vers le modèle est particulièrement importante au vu de la couverture de la ressource utilisée par rapport aux corpus à annoter. NLGbAse couvre en effet 83% des lieux mentionnés dans ESTER mais 44% des personnes ; dans le corpus WSJ, la couverture est de 96% et 62%, respectivement.

L’évaluation de Wikimeta porte sur deux fonctionnalités du système : a) la capacité à lier correctement une mention au modèle lorsqu’un tel lien existe, b) la capacité à identifier une absence de lien lorsque la mention ne correspond à aucune ressource du modèle. Le point d’évaluation a concerne donc uniquement l’ensemble des mentions correspondant effectivement à une ressource du modèle et la qualité de l’algorithme de désambiguïsation. Le point b évalue quant à lui la justesse du seuil de similarité minimale fixé pour l’étape désambiguïsation. Les performances de la REN réalisée en amont de l’AS ne sont quant à elles pas évaluées. L’évaluation du système pour l’anglais et le français porte donc uniquement sur l’ensemble des mentions d’entités correctement détectées et emploie la mesure du rappel r suivante :

Dans le document Identification automatique d'entités pour l'enrichissement de contenus textuels (Page 100-107)