Méthodologie - Identification automatique d'entités pour l'enrichissement de contenus textuels

La définition de l’AS proposé à la section 1.1.2 de ce chapitre peut être reprise en tenant compte de façon plus spécifique des ressources envisagées pour cette tâche telles qu’elles ont été décrites précédemment :

[3.2] L’Annotation Sémantique consiste en la mise en relation explicite d’un support informatif, sous la forme d’un segment textuel de document, et d’un modèle de connaissances à l’aide de marqueurs indiquant les éléments informatifs sélectionnés pour l’établissement de ce lien et encodant formellement leur relation référentielle au modèle, représenté sous forme d’ontologie ancrée dans le réseau des Linked Data. Dans le cas particulier des segments textuels constituant des mentions d’entités, les liens établis par l’annotation peuvent cibler des instances ontologiques de classes modélisant les types d’entités considérés et correspondent alors à une identification. Les deux opérations principales à effectuer afin d’accomplir une AS conformément à une telle définition relèvent d’un processus de sélection, appliqué à différents niveaux :

1. Les segments textuels destinés à être annotés doivent être sélectionnés dans l’ensemble du contenu documentaire considéré. Cette sélection peut couvrir tout ou partie de ce contenu : chaque mot ou terme d’un document peut en effet donner lieu à une annotation.

2. Mise en œuvre de l’Annotation Sémantique 97 2. Pour chaque segment à annoter, un élément de l’ontologie adoptée pour la tâche doit être sélectionné. Cette sélection est encodée par l’insertion de l’URI de cet élément ontologique — concept, relation ou instance — dans le marqueur indiquant le segment annoté. L’opération 1 est à considérer comme composante intégrante du processus rédactionnel à l’origine de la publication documentaire : la sélection dont il s’agit repose en effet sur un critère de pertinence lié à la valeur informative recherchée pour les documents publiés, puisque l’AS et plus particulièrement l’enrichissement de contenus à l’aide de métadonnées sont destinés à un ancrage dans un réseau informatif plus large ; les points d’entrée vers ce réseau, que constituent les annotations et métadonnées qui en dérivent, doivent ainsi présenter un intérêt en regard du contenu considéré, dont son auteur est à même de décider.

L’opération 2 implique, lors de l’accomplissement de la tâche d’AS, qu’un accès immédiat soit possible afin de sélectionner la ressource ontologique adéquate parmi l’ensemble disponible et d’en importer l’URI devant être insérée au marqueur d’annotation. Cet accès est à intégrer dans le fonctionnement des outils, notamment les content management systems (CMS) évoqués au cha- pitre 1 (section 3.3), mis à la disposition des auteurs et annotateurs. L’intégration et le support des modèles ontologiques constituent un pré-requis nécessaire, selon la description d’une plateforme d’AS proposée par Uren et al. [Ure+06]. Les descriptions associées aux ressources ontologiques dans le modèle adopté peuvent ainsi être consultées par les producteurs afin d’appuyer le processus de sélection. L’accès aux ressources peut par ailleurs inclure une fonctionnalité de contrôle et de restriction sur les éléments sélectionnés, évitant ainsi l’insertion de liens erronés ou inexistants et d’erreurs de syntaxe dans les marqueurs d’annotation.

Cette distribution opérationnelle de l’AS peut s’envisager dans un accomplissement manuel, concomitant au processus de production : à la rédaction de chaque document, l’interface d’édition permet une sélection des segments à annoter selon le choix du rédacteur, ainsi qu’un accès à l’ontologie adoptée dans laquelle le rédacteur sélectionne les ressources à lier à ces segments. Une telle configuration d’AS présente cependant des limitations inhérentes, déjà évoquées au chapitre 1 (section 1.3.1) : une annotation manuelle de chaque document produit au sein d’une organisation est nécessairement coûteuse en temps et peut représenter une charge de travail peu valorisée. Les manipulations textuelles et logicielles successives à effectuer pour chaque annotation peuvent en effet comporter un aspect laborieux et aride, rendant la tâche difficile à envisager dans la durée d’un point de vue à la fois pratique et intellectuel. Des freins de ce type sont évoqués dès 2001 dans la description d’une migration entre AS manuelle et semi-automatique par Erdmann et al. [Erd+00]. Le traitement d’archives, c’est-à-dire de corpus documentaires déjà publiés, qu’ils soient anciens ou récents, ajoute un obstacle majeur à l’AS manuelle, qui ne peut prendre en charge des quantités de données dépassant quelques documents par jour et par rédacteur ou annotateur. L’AS de contenus préexistants constitue pourtant un volet incontournable du traitement de l’information suivant le paradigme et l’architecture du Web Sémantique, dans lequel un tel traitement peut émaner de tout agent et porter sur tout contenu disponible. On peut rappeler ici l’argumentaire de Wilks et Brewster [WB09] selon lequel le TAL est indispensable à la réalisation de l’AS notamment pour cette raison.

2.1.2 Automatisation

L’AS se présente donc comme une tâche à automatiser, dans un but d’allègement de la charge de travail au niveau du processus rédactionnel d’une part, et de systématisation d’autre part. La nécessité de l’automatisation de l’AS est notamment affirmée par Uren et al. [Ure+06]. Dans l’inventaire de systèmes proposé par Reeve et Han [RH05], l’AS n’est envisagée que sous sa forme automatisée, dont les systèmes Armadillo [Cir+04], KIM [Kir+04] ou SemTag [Dil+03] sont des réalisations proposées au début des années 2000.

Les aspects de contrôle et de restriction de sélection des ressources évoqués précédemment sont des facteurs de cohérence et peuvent constituer une forme de semi-automatisation de l’AS à partir d’une configuration manuelle. Une automatisation plus étendue voire totale portant sur les opérations réalisées lors de l’AS permet cependant une systématisation de la chaîne de traitement dans son ensemble. Un niveau de traitement semi-automatique peut alors être introduit par la définition de certaines interventions humaines dans cette chaîne, principalement la validation manuelle des résultats retournés par l’outil automatique employé dans la tâche d’AS considérée, comme c’est le cas dans le système Pankow [CHS04].

2.1.3 Points de variation dans les approches d’Annotation Sémantique

Les systèmes d’AS existants, dont certains seront étudiés dans la section suivante (2.2) à titre d’illustration de l’état de l’art dans ce domaine, peuvent être comparés et examinés selon leur prise en charge de l’automatisation au niveau des points méthodologiques évoqués précédemment. Dans la plupart des systèmes dont le fonctionnement est rapporté dans la littérature, cette prise en charge se formule, pour la première opération de sélection effectuée en AS, en fonction de l’approche adoptée vis-à-vis du repérage automatique des éléments informatifs. Deux postures s’opposent à ce niveau, selon que le repérage en question repose ou non sur la discipline, les méthodes et les outils développés en Extraction d’Information.

Pour Uren et al. [Ure+06], même si les résultats obtenus peuvent présenter un taux d’erreur supérieur à un processus manuel en termes de précision et de rappel, l’intégration d’un composant d’Extraction d’Information dans un système d’AS est présentée comme indispensable. Les systèmes reposant pour la première opération sur un composant d’Extraction d’Information sont listés par Uren et al. [Ure+06] et Reeve et Han [RH05]. Il s’agit notamment de Armadillo [Cir+04], KIM [Kir+04] ou Mímir [Cun+11a] qui s’appuient sur l’architecture et les outils d’Extraction d’Information de GATE [Cun+11b], évoqués au cours du chapitre précédent. Pankow [CHS04] repère les éléments à annoter à l’aide d’un étiqueteur en parties du discours, capable d’identifier les occurrences de noms propres.

Les systèmes SemTag [Dil+03] et Spotlight [Men+11a] sélectionnent les éléments à annoter à partir d’un lexique de formes lexicales associées aux ressources ontologiques dont ils disposent : toute forme appartenant au lexique repérée dans le texte est ainsi présentée à la seconde opération d’AS. La méthode adoptée par ces systèmes ne repose donc pas sur les techniques d’Extraction d’Information existantes. L’approche du système Cerno [Kiy+09] emploie des méthodes de repérage explicitement décrites comme ne relevant pas de l’Extraction d’Information ni du TAL, considérés comme trop lourds en termes de moyens et ressources informatiques, mais du processus de rétroingénierie pour la conception logicielle. Celui-ci peut être ramené à un repérage sur la base de motifs textuels qui, bien que considérée par les auteurs comme légère et peu sophistiquée, n’est cependant pas une technique étrangère à de nombreuses architectures d’Extraction d’Information. Pour la seconde opération, l’établissement des relations entre mentions textuelles et ressources ontologiques nécessite un décodage qui peut être vu de façon plus ou moins naïve : les mentions peuvent en effet être directement associées aux ressources au vu de leur forme de surface, qui peut correspondre au nom donné à la ressource dénotée ou à un ensemble de formes lexicales définies pour cette ressource. Ainsi, la mention troupes dans l’exemple 6 peut être mise en relation avec un concept ontologique nommé Troupes dans l’ontologie, ou Armée, si ce concept définit cette forme lexicale comme pouvant lui être associée. De même, la mention François

Hollande peut être mise en relation avec le concept Personne ou avec une instance de ce

concept pour laquelle le label équivalent est défini. Mais dans la plupart des systèmes d’AS décrits, ce décodage tient compte du problème de l’ambiguïté touchant la relation entre texte et représentation logique : plusieurs ressources ontologiques peuvent en effet correspondre à une même forme lexicale, qu’il s’agit alors de lier à la ressource adéquate. L’établissement de cette

2. Mise en œuvre de l’Annotation Sémantique 99 relation repose sur un ensemble d’heuristiques dans le système Kim [Kir+04], tandis que d’autres approches modélisent le problème de l’ambiguïté par une recherche de similarité entre le contexte textuel des occurrences de mentions et la description ontologique des ressources, comme le font les systèmes SemTag [Dil+03], Spotlight [Men+11a] ou Wikimeta [CGO11].

On constate également une variation parmi les différentes approches d’AS au niveau du type de ressource ontologique ciblé pour les annotations d’entités. Il a en effet été évoqué la possibilité de lier une mention d’entité, particulièrement les noms de personnes, de lieux ou d’organisation, à une instance ontologique membre d’une classe modélisant le concept correspondant. Cette pos- sibilité s’oppose à l’établissement d’un tel lien avec la classe elle-même plutôt qu’une instance : dans ce cas, il s’agit principalement de typer l’entité mentionnée de la façon la plus précise possible en regard des concepts modélisés dans l’ontologie et de leur granularité. Ainsi, la mention

Michael Jordan peut être liée aux concepts Sportif, Économiste ou Scientifique, définis

comme sous-classes de la classe personne dans l’ontologie considérée. De tels liens sont notamment établis par le système Pankow [CHS04], produisant ainsi des documents annotés suivant les concepts de l’ontologie adoptée. Il est cependant à observer qu’une telle approche ramène aux problèmes de sémantique des entités évoqués au chapitre 2 (section 3) : un typage, aussi fin et précis soit-il, ne constitue pas l’établissement explicite d’un lien de référence entre une mention et une entité. Il ne peut donc être considéré comme l’équivalent d’une identification d’entité sous la forme d’une instance. Le système KIM, notamment, établit à l’inverse une relation systématique entre mention textuelle et instance ontologique d’entité, parallèlement à un typage conceptuel fin parmi les classes disponibles.

On constate de façon générale que le modèle ontologique employé en AS est de nature simple et légère, autrement dit que les modèles complexes, globaux et profonds tels que l’ontologie de haut niveau Cyc20 _{n’ont pas la faveur des applications concrètes. Celles-ci reposent sur des}

ontologies définissant peu d’axiomes, restreints aux propriétés et attributs essentiels des concepts modélisés, eux-mêmes limités à des domaines d’ordre général. Cette tendance est illustrée par le mode de développement des LD, dont les modèles sous-jacents proposent des conceptualisations à large couverture mais de structure hiérarchique relativement plate, avec peu de modélisation relationnelle. Les ensembles de données des LD présentent en revanche souvent un grand nombre d’instances, et de fait un grand nombre d’interconnexions entre instances de différents ensembles de données. Ces éléments quantitatifs traduisent un intérêt davantage porté sur la mise en relation des informations elles-mêmes que sur la capacité à modéliser conceptuellement l’ensemble des informations véhiculées dans les contenus. Cette approche est un des traits caractéristiques des trois systèmes d’AS présentés dans la section suivante.

Dans le document Identification automatique d'entités pour l'enrichissement de contenus textuels (Page 97-100)