• Aucun résultat trouvé

Place et traitement des entités dans l’Annotation Sémantique

Les systèmes d’AS permettent la mise en relation automatique de contenus textuels avec des modèles sémantiques de domaine ou généralistes, par l’annotation de segments sélectionnés à travers ces contenus et porteurs d’une valeur informative pertinente. Parmi ces segments, les mentions d’entités et les instances ontologiques correspondantes font l’objet d’une attention plus ou moins centrale dans les systèmes évoqués et décrits. Cette attention, particulièrement mise en avant par KIM [Kir+04] ou Wikimeta [CGO11] notamment, reflète le rôle central accordé aux entités dans le traitement de l’information, comme l’a montré la présentation de l’Extraction d’Information au chapitre 2. L’AS se présente en ce sens comme un prolongement méthodologique de l’Extraction d’Information : son objectif de formalisation des connaissances et d’application générique, notamment via le Web et les LD, la distingue de l’Extraction d’Information, mais elle en constitue également une forme renouvelée en tant que moyen de représentation des connaissances sous une forme structurée et distincte du niveau textuel.

2. Mise en œuvre de l’Annotation Sémantique 107 Lorsque les entités sont concernées par l’AS, une distinction formelle importante est à observer quant à la relation établie avec le modèle employé : les mentions d’entités font en effet l’objet d’un lien vers une instance ontologique plutôt que vers un concept — bien qu’une telle possibilité soit envisagée par certains systèmes et revient alors à un typage sémantique plus ou moins fin. La correspondance formelle entre instance et entité peut en effet être vue comme plus manifeste que dans le cas d’autres classes conceptuelles : dans le passage

(8) un texte retentissant réclamant la fin de l’armement nucléaire29

le terme armement nucléaire peut en effet être mis en relation avec des concepts ontologiques tels que Arme ou ArtefactMilitaire, mais il serait difficile d’affirmer qu’il s’agit là d’une référence à un objet vu comme un individu, pouvant donner lieu à une instance ontologique de l’un de ces concepts. Ce terme en constituerait plutôt une mention textuelle que l’AS peut reconnaître comme telle, permettant ainsi une représentation conceptuelle de l’information contenue dans les données textuelles traitées. Dans le cas d’annotation de mentions d’entités mises en relation avec des instances, l’AS porte sur l’implication d’individus dans le contenu informatif, et non plus seulement sur une conceptualisation de l’information.

Le statut d’individus porté par les entités est appuyé par leur représentation ontologique elle- même, sous forme d’instances. Celles-ci sont en effet désignées par le terme individu dans la terminologie des logiques de description et peuvent être déclarées comme uniques et distinctes les unes des autres dans le langage ontologique OWL. Leur intégration dans l’espace du Web Sémantique et des LD renforce ce statut : elles y sont qualifiées de descriptions lorsqu’elles sont déclarées explicitement comme membres d’ensemble de données définis dans cet espace, tels que DBpedia. Cette désignation implique que l’accès à une instance via le Web et les LD permet également l’accès à des connaissances la concernant, définies dans l’ontologie dont elle est membre ou par un ensemble de triplets RDF. Les instances d’entités constituent ainsi une représentation de ces entités permettant de déclarer explicitement, via l’AS, de qui ou de quoi il est question dans un document.

Reconnaissance Le traitement des entités dans l’AS donne donc lieu à une forme de spécialisa-

tion, où a) le repérage des éléments à annoter correspond à la Reconnaissance d’Entités Nommées, telle que définie en Extraction d’Information (cf. chapitre 2, section 3.1), et où b) l’établissement d’une relation au modèle cible des instances de classes modélisant des entités.

a) La relation entre AS et Extraction d’Information ne relève pas uniquement de la parenté, évoquée précédemment, mais aussi de la méthodologie : l’AS en tant que telle ne définit pas de méthode d’accès aux éléments informatifs eux-mêmes. Elle repose pour cette étape nécessaire sur l’Extraction d’Information, de façon plus ou moins explicite et manifeste. Certaines applica- tions d’AS n’en font ainsi pas mention (Spotlight), tandis que d’autres l’intègrent (Wikimeta) voire identifient la tâche d’AS à une forme adaptée d’Extraction d’Information (KIM). Même dans le premier cas, un processus de repérage est nécessaire et s’apparente indéniablement à l’Extrac- tion d’Information. La Reconnaissance d’Entités Nommées, développée depuis plusieurs décennies spécifiquement pour le problème du repérage de mentions d’entités, se présente dès lors comme pertinente en tant que méthode éprouvée et aux résultats performants. Contrairement à des méthodes usant exclusivement de lexiques de mentions, s’appuyant uniquement sur la corres- pondance entre segment textuel et entrée du lexique, la REN permet de distinguer les segments effectivement dénotationnels des autres, y compris pour les segments présents dans un lexique. La REN dépasse également l’approche par recherche de chaînes définies dans un lexique par sa capacité à découvrir des mentions non préalablement listées comme telles et ainsi d’élargir la couverture des éléments informatifs repérés.

b) En associant des mentions d’entités à des instances ontologiques plutôt qu’à des concepts, l’AS accomplit une explicitation de la relation dénotationnelle existant entre une mention et une entité. Elle dépasse ainsi les limitations de la sémantique typologique proposée par l’Extraction d’Information, qui ne porte pas sur l’entité elle-même, en tant qu’individu, mais sur son aspect conceptuel. Celui-ci est également traité par l’AS, qui en donne une définition explicite par l’an- crage dans un modèle ontologique, dont la formalisation s’oppose à des structures de modélisation non liées en Extraction d’Information.

Désambiguïsation La seconde opération d’AS consistant à établir un lien entre mention et mo-

dèle, qui peut être restreint aux instances dans le cas des entités, donne lieu à la formulation d’un problème d’ambiguïté, tel que le formulent les auteurs de KIM, Spotlight ou Wikimeta. L’ambiguïté est ici celle de variantes lexicales pouvant constituer les mentions de plusieurs instances du mo- dèle. Elle se rapporte au problème plus général de la dénotation linguistique des entités, abordé au chapitre 2 (section 3.2), qui se traduit par une relation équivoque entre mentions et entités. La chaîne parlée et écrite permet en effet de mentionner un même référent par plusieurs expres- sions, donnant ainsi lieu à autant de variantes lexicales. Cet aspect de la dénotation est souvent pris en charge par les systèmes d’AS par l’usage de ressources définissant les possibles variantes correspondant aux différentes instances d’entités, comme cela a été décrit précédemment. Il est également possible qu’une unique variante puisse dénoter plusieurs entités distinctes, ce qui cor- respond au phénomène de l’homonymie. Celle-ci est au centre du problème d’ambiguïté formulé en AS, pour les systèmes le prenant explicitement en compte. C’est le cas de Spotlight et Wiki- meta, dont l’approche consiste en une désambiguïsation sur la base de similarités contextuelles d’occurrence des mentions et des entités correspondantes.

On peut rapprocher cette prise en charge de l’ambiguïté dénotationnelle par l’AS de travaux réalisés au milieu des années 2000, portant sur la désambiguïsation des entités nommées. Il s’agit principalement des propositions de Bunescu et Pasca [BP06] et de Cucerzan [Cuc07], où la désambiguïsation repose sur les informations encyclopédiques de Wikipedia. Sans s’inscrire dans le paradigme du Web Sémantique et de l’AS, ni définir explicitement de distinction entre la tâche de Reconnaissance d’Entités Nommées et de mise en relation entre le niveau textuel des dénotations et une représentation formelle des entités, ces travaux posent les bases générales de la méthodologie à l’œuvre dans les systèmes d’AS décrits ici. Ils constatent en effet la nécessité dans certains contextes applicatifs, notamment la Recherche d’Information, d’extraire les entités nommées relativement aux différents sens qu’elles véhiculent, autrement dit aux entités en tant qu’objets identifiables de façon unique. La constitution de lexiques de variantes lexicales à partir de Wikipedia ainsi que la maximisation de la similarité entre contexte d’occurrence d’une mention et informations collectées pour chaque entité, au travers de sa représentation sous forme d’article Wikipedia, constituent le cœur de la méthode employée dans l’approche de désambiguïsation de Cucerzan [Cuc07] et de Bunescu et Pasca [BP06]. Cucerzan évoque les cas de mentions dénotant une entité absente de la collection d’articles Wikipedia à disposition ; ces cas sont exclus de l’éva- luation du système, qui obtient un score d’exactitude de la désambiguïsation (accuracy) de 89,85% en moyenne. Cette évaluation porte autrement dit sur le nombre de désambiguïsations correctes parmi l’ensemble des mentions d’entités disposant d’un référent dans Wikipedia. Bunescu et Pasca intègrent explicitement les cas d’absence d’entités en définissant deux opérations principales à réaliser : (i) déterminer si la mention réfère à une entité de Wikipedia ou non et (ii) désambiguïser la mention parmi les différentes entités de Wikipedia qu’elle peut dénoter. L’exactitude (accuracy) ainsi mesurée atteint 84,8%.

On peut cependant observer, en AS comme chez Bunescu et Pasca et Cucerzan, que cette formulation du problème en tant que désambiguïsation des mentions d’entités est dans une large mesure relative à l’emploi de ressources déterminées. Le nombre d’instances d’entités présentant

3. Approche systématique de l’identification d’entités 109 une même variante lexicale est en effet incidentel et dépend du processus de collecte ayant abouti à la constitution de la ressource en question. Une ressource est en effet, quel que soit son type, à considérer comme toujours incomplète, dans la mesure où elle dépend de la mise en œuvre d’un processus d’acquisition, pouvant donner lieu à des erreurs et des lacunes. L’ensemble des entités potentiellement mentionnées dans les contenu traités ne peut, par ailleurs, donner lieu à une collecte exhaustive : de nouvelles entités peuvent en effet émerger dans ces contenus au gré de l’actualité et ne pas faire l’objet d’une intégration immédiate aux ressources ; d’autres entités peuvent être mentionnées sans pour autant bénéficier de la notoriété souvent adoptée comme critère pour une telle intégration. L’association établie entre ensembles de variantes lexicales et représentations d’entités par les systèmes évoqués est donc potentiellement incomplète : il existe d’une part le cas de variantes ne correspondant à aucune entité recensée, et d’autre part le cas de variantes liées à une ou plusieurs entités de la ressource. Dans le premier cas, il ne peut être établi avec certitude que l’entité dénotée est absente : l’ensemble des variantes associées à une entité peut être lacunaire. Dans le second cas, la variante peut, dans un contexte d’occurrence donné, dénoter une entité supplémentaire, non recensée dans la ressource. Il résulte que la non univocité de la dénotation ne relève pas uniquement des cas d’ambiguïté modélisés par une ressource, et doit également s’entendre au niveau des entités et variantes dénotationnelles qui en seraient absentes. C’est pourtant le terme de désambiguïsation qui se trouve consacré, dans les différents travaux portant sur les entités et notamment l’AS, au désavantage d’une qualification plus générale du phénomène traité.

Identification Ces observations sur l’approche de la relation entre mentions et entités en termes

exclusifs de désambiguïsation amènent à proposer une formulation plus générale et systématique du problème posé par l’établissement d’une telle relation. Le phénomène dénotationnel mettant en jeu une mention et une entité peut donner lieu à une ambiguïté, due à la variation surfacique des mentions et à l’homonymie ; il s’agit cependant d’associer cette mention à l’une des entités formalisées au sein d’une ressource donnée, au-delà de la résolution de l’ambiguïté. L’établisse- ment de cette relation tient, d’une part, à la mise en correspondance entre le niveau textuel et le niveau de représentations formelles, et d’autre part à la couverture de la ressource en termes d’entités potentiellement dénotées au niveau textuel.

Le terme d’identification est ainsi proposé pour qualifier de façon générale la tâche effectuée en AS, par laquelle les mentions textuelles d’entité sont associées à une représentation formelle pouvant être qualifiée d’identité. L’usage de ce terme vise à qualifier de façon fonctionnelle la tâche en question, ainsi qu’à englober les différents problèmes qu’elle doit traiter, y compris l’ambiguïté. Une systématisation méthodologique correspondant à cet objectif d’identification existe en dehors du paradigme du Web Sémantique, dans le cadre autonome de la tâche de Population de Bases de Connaissances. Cette tâche ainsi que les définitions et méthodes qu’elle propose font l’objet de la section suivante de ce chapitre.

3

Approche systématique de l’identification d’entités

Inscrite dans le paradigme du Web Sémantique et l’objectif d’enrichissement de contenus textuels, l’AS constitue un moyen mise en correspondance entre texte et modèle. La recherche de cette relation entre niveau linguistique et représentation de l’information place l’AS dans une dynamique de renouvellement de l’Extraction d’Information, dont elle se distingue par une formalisation et une standardisation des modèles adoptés. Pour les entités en particulier, l’accès aux connaissances ainsi permis vise des descriptions et faits pouvant être rassemblés et exploités par des traitements automatisés. Les entités constituent en effet dès les travaux initiaux en Extraction d’Information (cf. chapitre 2, section 3) un point d’attention central, auquel le Web Sémantique, les LD et l’AS

apportent un niveau de concrétisation crucial par l’adoption de la représentation ontologique et l’instanciation d’individus, référencés et accessibles de façon systématique. On a néanmoins pu observer que, si l’AS n’ignore pas toujours la prise en charge de la non-univocité existant entre niveau textuel et modélisation, le cœur de ses méthodes et de son fonctionnement cherche avant tout à répondre aux enjeux tenant à la mise en œuvre du Web Sémantique, au développement des LD et aux pratiques de formalisation associées. Il fournit néanmoins au processus d’identification d’entités un composant fonctionnel essentiel en donnant lieu à une vaste production et mise à disposition de données formalisées : à partir de ces données, la sémantique référentielle nécessaire à un traitement des entités en tant qu’individus, c’est-à-dire leur identification automatique, peut être obtenue.

3.1 La Population de Bases de Connaissances et le Liage d’Entités