• Aucun résultat trouvé

Sémantique des entités comme métadonnées

Dans la perspective d’une sélection des métadonnées considérées comme pertinentes relativement à un domaine et un modèle donnés, un producteur de contenus tel que l’AFP s’intéresse en premier lieu aux entités — personnalités, lieux, organisations — mentionnées dans les fils d’actualité. Cet ensemble peut être étendu à d’autres éléments, tel que les événements dans lesquelles ces entités interviennent ou les relations qu’elles entretiennent, mais est visé en priorité par le processus d’enrichissement4. Cette attention particulière accordée aux entités correspond à la

place essentielle qu’elles occupent dans l’espace informatif, notamment s’agissant d’actualité et de contenus journalistiques.

1. La tâche d’Annotation Sémantique pour l’enrichissement de contenus textuels 83

Ontologie

Politique européenne URI : www.semanticweb.org/ontologies/2012/euroPol Classes Rôles Instances François Hollande Angela Merkel France Germany Herman Von Rumpuy European Union Eurozone

Oct2012GrowthSummit

Les sujets de discorde ne manquent pas, notamment entre la France et l'Allemagne, pour le sommet qui s'ouvrait à 17 heures. En préambule, Angela Merkel devait rencontrer François Hollande ...

Le sommet européen forge un compromis sur la supervision bancaire

<!DOCTYPE document [<!ENTITY euroPol "www.semanticweb.org/ontologies/2012/euroPol#">]> <document>

Le <metadata uri="euroPol#Summit">sommet européen</metadata> forge un

compromis sur la supervision bancaire

Les sujets de discorde ne manquent pas, notamment entre la <metadata

uri="euroPol#France">France</metadata> et l'<metadata uri="euroPol#Germany">

Allemagne</metadata>, pour le sommet qui s'ouvrait à 17 heures. En préambule, <metadata uri="euroPol#Angela_Merkel">Angela Merkel</metadata> devait rencontrer <metadata uri="euroPol#François_Hollande">François Hollande</metadata> et Mario

Monti. ...</document>

Figure 3.2 : Enrichissement de documents : Politique européenne.

L’étude de la Reconnaissance d’Entités Nommées (REN) proposée au chapitre 2 (section 3.1) évoque le rôle central des entités dans les tâches s’intéressant aux connaissances véhiculées par les contenus textuels et délimite la sémantique attribuée aux entités par la REN sur le mode de la classification. Un enrichissement de contenus textuels pourrait être envisagé sur la base typologique proposée par la plupart des systèmes de REN : les métadonnées de documents ainsi traités porteraient alors les informations de type — personne ou lieu — définies dans un modèle et associées à des segments correspondant à des dénotations d’entités. Un tel enrichissement peut s’appuyer sur un système d’Extraction d’Information dont le modèle sous-jacent est de nature ontologique, comme l’a présenté la section 2.3 du chapitre 2. Il s’agirait alors d’une forme d’AS dans laquelle les mentions d’entités sont associées à des classes ontologiques, comme le sont les mentions de concepts.

Le paradigme général du Web Sémantique et l’organisation des connaissances qu’il propose, auxquels l’enrichissement de contenus à l’aide de métadonnées sémantiques cherche à se rat- tacher, conduisent cependant à étendre la notion d’ancrage sémantique des entités au-delà de la classification typologique. En tant qu’objets caractérisés par la notion d’individus, les entités sont en effet modélisées dans l’espace du Web Sémantique comme instances ontologiques, iden- tifiables de façon unique. Cette modélisation correspond au caractère représentationnel de ces instances, qui tiennent lieu d’approximation pour ces objets existant par ailleurs. Les instances ontologiques représentant des entités en fournissent donc une identité. Chacune d’elle constitue ce que le Web nomme une ressource, qui peut être accompagnée d’une description. L’apparte- nance d’une instance à une classe conceptuelle ontologique en fournit une description minimale, et l’ontologie à laquelle elle se rattache peut augmenter cette description, notamment par l’ins- tanciation de relations et l’assignation d’attributs. Parallèlement, le rôle attendu des entités en tant que métadonnées sémantiques dans le cadre de l’enrichissement est également fortement attaché à la notion d’entité : il s’agit concrètement d’expliciter, au fil des contenus, de qui ou de quoi il s’agit, de façon à permettre, d’une part, un accès à la ressource correspondante dans un but de documentation, et, d’autre part, une mise en relation systématique et immédiate de ces

contenus avec d’autres, sur la base des entités qui y sont mentionnées. Si l’on reprend l’idée de métadonnées dont la sémantique est celle du type des entités mentionnées, de telles ouvertures de l’espace informatif des documents traités seraient limitées à ces types : il serait alors possible d’accéder à une définition du type en question et non de l’entité elle-même, et la mise en relation de contenus retournerait un ensemble de documents mentionnant des entités du même type, par exemple personne.

L’enrichissement de contenus textuels visant les entités comme métadonnées nécessite donc que celles-ci prennent en charge la modélisation des entités telle que la définit le Web Séman- tique et les standards correspondant. Les métadonnées considérées comme valables dans ce cadre doivent ainsi comporter une référence à une instance ontologique représentant une entité, éven- tuellement munie d’une description ; cette référence prend la forme d’une URI permettant de localiser et surtout d’identifier de façon univoque l’entité dont il s’agit. La figure 3.2 présente des exemples de telles métadonnées : les marqueurs

<metadata uri="euroPol#François_Hollande">François Hollande</metadata> et

<metadata uri="euroPol#Angela_Merkel">Angela Merkel</metadata> renvoient à deux instances de l’ontologie identifiée par l’URI

www.semanticweb.org/ontologies/euroPol

abrégée en euroPol#. Le mécanisme de référencement des URI associé à la syntaxe OWL per- met par suite d’accéder aux connaissances concernant ces instances, notamment leur classe conceptuelle d’appartenance et les relations qui les lient à d’autres instances de l’ontologie. Dans l’exemple correspondant à la figure 3.2, de telles connaissances pourront se présenter sous la forme du graphe 3.3, à partir de l’instance François Hollande et des classes, relations et autres instances définies dans l’ontologie euroPol#.

La sémantique ainsi attribuée aux entités est donc liée aux notions de référence et d’identité ; elle peut en ce sens être qualifiée de référentielle, comme cela a été proposé précédemment (chapitre 2, section 3.3). L’interprétation qu’elle permet relève en effet de la relation de référence établie entre un segment textuel et une entité représentée dans un modèle. Sur le plan opé- rationnel, l’établissement d’une telle relation constitue un processus d’identification. En termes d’AS, cette identification restreint les segments textuels à annoter aux dénotations d’entités d’une part, et les cibles d’annotation aux instances ontologiques membres de classes conceptuelles représentant des entités d’autre part.

Sur ce dernier point, on peut observer que de telles classes posent la question de la mo- délisation des entités, c’est-à-dire de leur possible classification conceptuelle. La REN s’intéresse particulièrement aux différentes modalités d’organisation des entités en classes, en relation avec des tâches spécifiques mais également dans un souci plus général de modélisation du monde au travers des entités (cf. chapitre 2, section 3.2). Plusieurs typologies d’entités ont à ce titre été proposées dans le cadre de campagnes et de système de REN et il est aisé de les considérer comme base conceptuelle valide pour une représentation ontologique dans le cadre de l’AS. Les classes communes à la plupart de ces typologies correspondent en effet aux types personne, lieu, avec des distinctions possibles entre lieux proprement géographiques et entités géopolitiques, et organisation, ce dernier comprenant généralement le type entreprise. Ces types recouvrent ainsi un ensemble pertinent pour le traitement de contenus, notamment journalistiques, et dont le

1. La tâche d’Annotation Sémantique pour l’enrichissement de contenus textuels 85 François Hollande European Union Eurozone Person Institution State isMemberOf representantOf Herman v. Rumpuy Thing isMemberOf representantOf HeadOfState EuropeanOfficial is-a instance-of is-a is-a instance-of instance-of instance-of is-a is-a instance-of France

Figure 3.3 : Exemple de graphe de connaissances accessibles à partir d’une instance ontologique.

degré de généralité est de nature à s’adapter à de nombreux contextes et tâches. La question de la modélisation et de sa place dans l’AS pourra être discutée plus en avant avec l’examen des ressources nécessaires à sa mise en œuvre. Celles-ci pourront également illustrer les modalités de représentation de l’identité des entités visées par l’enrichissement à l’aide de métadonnées.