Ressources pour l’Annotation Sémantique - Identification automatique d'entités pour l'enrichiss

La définition de la tâche d’AS comme une mise en relation de segments textuels au sein de docu- ments et d’un modèle implique la mise à disposition de ressources adéquates. Il s’agit en premier lieu du modèle en question, envisagé sous la forme d’une ontologie. Les éléments constitutifs de cette ontologie forment l’ensemble des cibles possibles de l’AS, pour lesquelles sont fournies les descriptions formelles nécessaires. Ces éléments relèvent de l’un des types d’objets ontologiques — concept, rôle ou instance — et donnent lieu aux types d’annotations correspondants, tels que décrits précédemment (section 1.1.2). Il est utile d’observer que l’ontologie adoptée comme ressource doit être peuplée afin de permettre des annotations ciblant non seulement des concepts et relations abstraites, mais également des instances de concepts et de relations. Dans le cadre d’un enrichissement de contenus visant principalement les entités, comme cela a été discuté dans la section précédente, la disponibilité d’instances ontologiques dont les classes conceptuelles défi- nissent de telles entités est incontournable. L’ensemble des instances définies dans une ontologie, ainsi que des relations qui y sont instanciées est désigné par le terme de population.

Les ressources d’AS ainsi définies peuvent être regroupées en deux types généraux. Le premier ensemble considéré est celui ressources développées dans le cadre du Web Sémantique et plus particulièrement des Linked Data (LD), dont une description générale a été proposée au chapitre 1 (section 1.2.3). Les LD se caractérisent principalement par une mise à disposition publique et un accès systématisé5_{, par le biais de l’architecture ouverte et distribuée du Web ainsi que du}

mécanisme des URI. Ces données sont typiquement structurées selon un schéma ontologique

définissant au moins un ensemble de concepts et le plus souvent un ensemble d’instances membres de ces classes conceptuelles. Les LD comptent un nombre croissant d’ensembles de données, produites par divers agents et communautés inscrivant leur activité dans le cadre du Web Sémantique. Ces ensembles connaissent une organisation en réseau, reposant sur la définition mutuelle de liens de synonymie entre les ensembles de données concernés ; chacun d’entre eux constitue un nœud du graphe obtenu. Ces nœuds correspondent ainsi à la modélisation de différents domaines, activités et centres d’intérêt, et plus particulièrement à leur représentation sous forme de populations d’instances ontologiques dont le nombre et la diversité conceptuelle reflète le degré de couverture et la vue adoptée sur chaque domaine considéré.

Parallèlement à ces ressources préexistantes et publiquement disponibles, une tâche d’AS par- ticulière peut envisager la constitution ad hoc ou privée des modèles et populations nécessaires. L’agent à l’origine d’une AS sur un ensemble documentaire peut en effet privilégier une forte adéquation des ressources employées au domaine traité, en raison de l’absence de telles données parmi les nœuds existant dans les LD ou d’un impératif de non publicité des données. Dans le premier cas, il est important de noter qu’une telle constitution de données est souvent envisagée comme une première étape vers un ancrage des ressources ainsi créées dans le réseau des LD. Ces ressources peuvent par ailleurs s’appuyer sur les LD en important tout ou partie de leur population des ensembles de données existants, en définissant le plus souvent les équivalences conceptuelles nécessaires à la mise en correspondance d’un modèle vers l’autre.

À ces deux types généraux s’ajoutent certaines ressources hybrides, partageant le caractère libre des nœuds publics des LD sans nécessairement faire l’objet d’un référencement formel sur ce réseau. Ces ressources s’apparentent également au second type en tant qu’elles peuvent faire l’objet d’un développement en regard d’une tâche et d’un contexte d’application particuliers. Ce développement peut intégrer à divers degrés un souci de généricité et de compatibilité avec les LD, dont elles pourront ainsi constituer de nouveaux nœuds à l’occasion de développements ultérieurs.

Afin d’illustrer les requis formels et pratiques touchant les ressources d’AS, un certain nombre d’ensembles de données correspondant aux catégories évoquées peuvent faire l’objet d’un examen particulier. Il s’agit pour chacun d’entre eux d’identifier le modèle ontologique adopté ainsi que le mode de description formelle associé aux instances de ce modèle. Le choix de ces exemples reflète les différents aspects pouvant mener à leur adoption pour une tâche d’AS : généricité ou spécialité du domaine, caractère public ou privé, couverture et formalisation des descriptions d’entités. Ce dernier critère concerne plus particulièrement l’enrichissement de contenus à l’aide de métadonnées ciblant principalement les entités.

DBpedia

DBpedia6 _{est issu d’un effort communautaire dédié à l’extraction et à la structuration des infor-}

mations contenues dans l’encyclopédie en ligne Wikipedia7 _{et est disponible sous licence GPL}8_.

Bien que Wikipedia existe en tant que nœud des LD, auquel il est possible de faire référence par le mécanisme des URI, DBpedia répond à un besoin de systématisation d’accès et de représen- tation, notamment par l’adoption des standards du Web Sémantique tels que RDF. Le processus de conversion à l’œuvre entre le corpus formé par Wikipedia et l’ensemble de données résultant dans DBpedia est présenté en détails dans [Biz+09] ; après une présentation schématique de l’en- cyclopédie en ligne Wikipedia, nous donnons ici une vue synthétique de ce processus et de son résultat.

6. http://dbpedia.org/About 7. http://www.wikipedia.org

1. La tâche d’Annotation Sémantique pour l’enrichissement de contenus textuels 87 [...] Infobox Liens interlingues Résumé Titre Contenu textuel Wikilinks Références externes Catégories Attributs

Figure 3.4 : Schéma d’un article Wikipedia muni d’une infobox.

Wikipedia La modélisation ainsi que la structuration des données de DBpedia s’appuient sur le

schéma fondamental de Wikipedia qui, en tant qu’encyclopédie, est composées d’articles, portant sur un large éventail de domaines. Chaque article, sous la forme d’une page Web, réfère à un concept, une notion, un événement, ou une entité — personnalité, lieu, organisation, etc. Un article présente du texte libre, ainsi que des éléments de structuration :

Titre Nom canonique du sujet traité par l’article, éventuellement suivi d’un terme parenthésé

donnant une indication de désambiguïsation dans le cas d’homonymies. L’article concernant le joueur de basketball Michael Jordan a ainsi pour titre Michael Jordan, tandis que celui portant sur le joueur de football britannique du même nom a pour titre

Michael Jordan (footballer).

Résumé Court texte introductif placé en tête de l’article.

Catégories Une ou plusieurs catégories sont assignées à chaque article. L’information portée par

les catégories peut être d’ordre thématique (basketball), typologique (joueur de basketball), historique ou événementiel (JO 2012), relatif à un type d’article (naissance en 1963)... Les catégories sont constituées en listes légèrement hiérarchisées mais ne correspondant pas à une modélisation conceptuelle systématique comme le serait une ontologie. On trouve par exemple la catégorie Biographie qui comprend les sous-catégories Autobiographie, Film

biographique ou Récit de voyage.

Infobox Un sous-ensemble d’articles de Wikipedia présente des infobox, placées en regard du

corps de l’article. Une infobox comprend des informations sur le sujet de l’article sous la forme d’un ensemble de couples d’attributs et de valeurs. Un article portant sur une person- nalité peut par exemple présenter une infobox indiquant sa date et son lieu de naissance, ainsi que sa profession ou sa fonction dans une organisation. La valeur d’un attribut peut ainsi consister en un lien interne renvoyant à l’article de Wikipedia correspondant à cette valeur. Il est important de noter que les attributs choisis pour le remplissage des infobox, ainsi que les types d’infobox eux-mêmes, sont laissés au libre choix des éditeurs d’articles sans qu’un schéma systématique ne leur soit attaché. Différents noms d’attributs peuvent ainsi renvoyer au même type d’information (birthPlace et placeOfBirth, par exemple) ; différents schémas d’infobox peuvent par ailleurs exister pour la description d’entités de même type (city_japan et swiss_town, par exemple).

Wikilinks Des liens internes, renvoyant à d’autres articles de Wikipedia, peuvent être insérés au

texte de l’article. Ces liens se situent au niveau des mentions textuelles des concepts ou entités ainsi jugés pertinents pour leur relation avec le sujet traité dans l’article courant. Les wikilinks constituent ainsi un des moyens principaux d’exploration et de valorisation de l’information mise à disposition dans l’ensemble de l’encyclopédie.

Liens externes Des liens pointant vers des ressources distinctes de Wikipedia peuvent être insé-

rés à la fin des articles afin d’étendre l’espace informatif relatif au sujet traité.

Liens interlingues L’encyclopédie Wikipedia faisant l’objet de plusieurs éditions linguistiques

(285 langues donnent lieu à une édition de Wikipedia à ce jour), un article dont le même sujet est traité dans une ou plusieurs autres éditions linguistiques présente un lien permettant d’accéder à chaque édition.

La figure 3.4 donne une description schématique d’un article Wikipedia muni d’une infobox9_.

En dehors des articles, Wikipedia fournit également des liens de redirections ainsi que des pages de désambiguïsation. Les premiers correspondent aux variantes lexicales pouvant désigner le sujet d’un article et pointent vers l’article en question. Les redirections prennent notamment en charge le phénomène des alias, pseudonymes et changements de nom au cours du temps (une requête avec la chaîne Ali le chimique déclenche ainsi une redirection vers l’article intitulé Ali Hassan al-Majid; Carla Bruni est redirigé vers l’article Carla Bruni-Sarkozy), ainsi que des variations dues à des erreurs orthographiques ou des formes incomplètes (Hilary Clinton est ainsi redirigé vers Hillary Rodham Clinton). Les pages de désambiguïsation sont présentées à l’uti- lisateur lorsque le sujet recherché est concerné par l’homonymie ; les homonymes possibles sont ainsi listés avec une courte description permettant une désambiguïsation et un accès à l’article

1. La tâche d’Annotation Sémantique pour l’enrichissement de contenus textuels 89 adéquat, comme l’illustre l’extrait d’une page de désambiguïsation de Wikipedia, représenté à la figure 3.5.

Figure 3.5 : Page de désambiguïsation de Wikipedia pour Michael Jordan. Les noms listés correspondent aux liens vers les articles concernés.

À partir des contenus de Wikipedia ainsi mis à disposition, DBpedia opère une conversion systématique aboutissant à une base de connaissances, selon le terme employé par les auteurs à l’origine de ce projet. Une base de connaissances est en effet un regroupement d’informations concernant un domaine — ici conçu comme général —, structuré de façon à en dériver des connaissances et de forme exploitable automatiquement. Les éléments principaux de DBpedia correspondent aux sujets faisant l’objet d’articles dans Wikipedia. Il s’agit de concepts et d’enti- tés munis d’un identifiant unique, qui leur donne ainsi le statut de ressources Web et les rend accessibles au titre des LD. Des connaissances relatives à ces concepts et entités sont également dérivées de Wikipedia. Une ontologie élaborée manuellement par les développeurs de DBpedia à partir des 350 types d’infobox les plus courants dans Wikipedia, constituée de 170 classes peu hiérarchisées et 720 relations, permet une catégorisation des concepts et entités ainsi qu’une représentation formelle des connaissances les concernant. À cette ontologie s’ajoutent une mo- délisation selon les catégories Wikipedia et deux schémas externes, Yago10 _{et UMBEL}11_{. Enfin,}

des liens externes sont définis à partir de DBpedia vers d’autres ressources d’information sur le Web, tandis que DBpedia fait l’objet de liens issus de nœuds des LD, pointant vers les concepts et entités qui y sont référencés. Ces liens entrants et sortants contribuent à placer DBpedia au cœur des LD, lui conférant un statut de pivot essentiel à leur fonctionnement et venant s’ajouter à la pertinence de DBpedia pour de nombreux domaines et contextes applicatifs, dérivée de la large couverture de Wikipedia. Fin 2012, la présentation12 _{de la base de connaissances de DBpedia}

indique pour sa version anglaise 3,77 millions de ressources, dont 2,35 millions sont catégorisées selon l’ontologie correspondante. Les catégories modélisant les personnes, lieux et organisations comptent respectivement 764 000, 573 000 et 192 000 ressources. DBpedia est par ailleurs dévelop- pée en 111 autres langues, donnant lieu à autant de versions qui comptent au total 20,8 millions de ressources, dont 10,5 millions comportent des liens avec des ressources de la version anglaise. DBpedia est en constante évolution et augmentation, en raison de sa synchronisation avec les changements et additions réalisées dans l’encyclopédie Wikipedia et de l’organisation de son déve- loppement et de sa maintenance reposant sur la méthode d’externalisation ouverte (crowdsourcing en anglais).

10. http://www.mpi-inf.mpg.de/yago-naga/yago/ 11. http://www.umbel.org/

L’opération de conversion de Wikipedia vers DBpedia concerne d’une part les éléments com- muns à tout article, et d’autre part la représentation dans DBpedia des informations contenues dans les infobox, relatives aux sujets d’articles pour lesquels une infobox est définie. Cette seconde conversion se fait selon deux procédés : l’un transfère directement les informations d’infobox de Wikipedia à DBpedia, l’autre intègre une mise en correspondance entre le format des infobox et le modèle ontologique de DBpedia. La table 3.1 rend compte de ce processus de conversion et liste les principaux éléments constitutifs de la représentation formelle adoptée dans DBpedia. La figure 3.6 présente un extrait de la description obtenue pour une ressource de DBpedia via le Web. Les tables 3.3 et 3.2 illustrent la position de DBpedia au centre des LD, via les liens entrants et sortants établis avec d’autres sources de données, que les auteurs évaluent à 3,1 millions et 4,9 millions, respectivement.

Élément DBpedia Description Élément d’article Wikipedia utilisé

URI Identifiant unique de ressource URI de DBpedia + titre (version anglaise)

rdfs:label Variantes dénotationnelles Titre

Liens interlingues Liens de redirection

Éléments de pages de désambiguïsation

rdfs:comment Description courte Premiers mots du résumé

dbpdia :abstract Résumé Résumé

dbpedia:reference Références externes Liens externes

dbpedia:wikilink Lien Wikipedia interne Wikilinks

concept Catégories Wikipedia Catégorie

rdf:type Classe ontologique Type de l’infobox

dbpedia-owl:attribute Attribut de ressource Attribut d’infobox dbpedia-owl:role Relation entre ressources Attribut d’infobox Table 3.1 : Construction de DBpedia à partir de Wikipedia.

GeoNames

Dans le réseau des LD, GeoNames13 _{se présente comme le principal ensemble de données}

géographiques, disponibles sous licence libre14_{. Organisée en 9 types de lieux principaux, sous-}

divisés en 645 sous-types, la base de données fournie par GeoNames comprend 2,8 millions d’entrées et compte plus de 8 millions de noms différents associés à ces lieux, avec notamment des variantes linguistiques. Chaque entrée est identifiée de façon unique par une URI et directement accessible en tant qu’instance d’un des types ou sous-types définis. Une ontologie reprend ce modèle typologique et intègre pour chaque ressource ses relations de subsomption avec les autres ressources de GeoNames, ainsi que des liens de synonymie vers Wikipedia lorsqu’une telle association est possible. La figure 3.7 présente quelques types et sous-types utilisés dans le modèle de GeoNames. La figure 3.8 donne un exemple de ressource telle qu’elle est modélisée dans l’ontologie de GeoNames au format RDF.

13. http://www.geonames.org

1. La tâche d’Annotation Sémantique pour l’enrichissement de contenus textuels 91

Figure 3.6 : Extrait d’une description de ressource dans DBpedia (format de visualisation). Le préfixe dbpedia indique un lien vers une autre ressource.

Source # Liens Freebase 2 400 000 flickr wrappr 1 950 000 WordNet 330 000 GeoNames 85 000 OpenCyc 60 000 UMBEL 20 000 Bio2RDF 25 000 WikiCompany 25 000 MusicBrainz 23 000 Book Mashup 7 000 Project Gutenberg 2 500 DBLP Bibliography 200

CIA World Factbook 200

EuroStat 200

Table 3.2 : Distribution des liens de DBpedia pointant vers d’autres

sources de données (table reproduite à partir de [Biz+09].

Source Classes

BBC Music musiciens, groupes

Bio2RDF gènes, protéines

CrunchBase entreprises

Diseasome maladies

flickr wrappr classes diverses

FOAF classes diverses

GeoNames lieux

GeoSpecies espèces

LIBRIS auteurs

LinkedMDB films

Lingvoj langues

OpenCyc classes diverses

OpenCalais lieux, personnes

UMBEL classes diverses

Table 3.3 : Sources de données publiant des liens pointant vers DBpedia (table

reproduite à partir de [Biz+09].

NLGbAse

NLGbAse15_{, dont le processus de construction est décrit dans [CTM10] et [CG12], repose sur une}

dérivation d’information à partir de Wikipedia et indique pour chaque ressource référencée l’URI de la ressource DBpedia correspondante. Chaque ressource de NLGbAse comprend un type, un ensemble de variantes surfaciques possibles ainsi qu’un sac de mots dérivé de l’article Wikipedia

Figure 3.7 : Quelques types et sous-types de données géographiques dans GeoNames.

Figure 3.8 : Description de ressource dans GeoNames au format RDF.

correspondant. La classification des ressources est obtenue à partir de Wikipedia selon un processus d’apprentissage. Les variantes surfaciques sont collectées à partir de cinq éditions linguistiques de Wikipedia (français, anglais, espagnol, allemand, italien), afin de prévoir des traitements mul- tilingues, des pages de redirections, des pages de désambiguïsation, ainsi que du contenu textuel marqué par des wikilinks au sein des articles de l’encyclopédie. Le sac de mots associé à chaque ressource est constitué des mots de l’article Wikipedia correspondant ; une valeur tfidf est assi- gnée à chaque mot pour chaque édition linguistique utilisée. La table 3.4 présente la distribution des ressources de NLGbAse selon leur type pour le français, l’anglais et l’espagnol.

NLGbAse comprend donc à la fois un inventaire typé de ressources, dont les entités de type person, organization et location représentent 62% et 64%, pour le français et l’anglais

1. La tâche d’Annotation Sémantique pour l’enrichissement de contenus textuels 93

Person Organization Location Product Function Time Encyclopedic

FR 232 027 87 052 183 729 96 571 1 588 18 871 130 530

EN 754 586 305 706 565 941 326 155 3 783 13 575 468 829

ES 84 623 58 600 93 030 51 427 41 2 048 92 462

Table 3.4 : Distribution des ressources de NLGbAse par type pour le français, l’anglais et l’espagnol (table reproduite à partir de [CG12]).

respectivement, ainsi que des informations d’ordre contextuel et lexical sur ces ressources. Ces informations sont collectées dans une perspective d’exploitation par un système d’AS, qui sera décrit plus loin dans ce chapitre. La figure 3.9 illustre un exemple de ressource de NLGbAse dans le format de visualisation retourné par une requête en ligne sur http://www.nlgbase.org/. Le nom canonique (Meryl Streep), le type (pers.hum), les formes de surface, l’ancrage dans les LD à partir de DBpedia ainsi que les premiers mots associés à la ressource selon leur poids tfidf sont présentés dans ce format.

TF/IDF

Figure 3.9 : Visualisation d’une ressource dans NLGbAse.

Aleda

Aleda16 _{[SS12a] est issu d’une dérivation à partir de Wikipedia et de GeoNames, destinée au}

regroupement de ressources selon une classification comprenant les types d’entités courants. De façon comparable à NLGbAse, Aleda intègre les entités de type personne, organisation, et

16. Aleda est librement disponible sous licence LGPL-LR (http://www.ida.liu.se/~sarst/bitse/lgpllr.

html) à l’adresse https://gforge.inria.fr/frs/download.php/30598/aleda-0.5.tar.gz, dans le cadre

de la plateforme de modélisation et d’acquisition d’informations lexicales Alexina (http://gforge.inria.fr/

entreprise à partir de Wikipedia17, tandis que les lieux sont obtenus à partir de GeoNames. Aleda opère par ailleurs cette dérivation exclusivement au niveau des entités, et ne comprend donc pas de ressources de type encyclopédique — concepts, notions — ni d’événement ou de dates. À partir de Wikipedia et de GeoNames, Aleda résulte ainsi en une base d’entités, disponible sous la forme d’une base de données classique, dont le schéma correspond à la modélisation adoptée. Aux types d’entités mentionnés s’ajoutent les œuvres (films, romans...) et produits. La table 3.5 indique le nombre de ressources pour chaque type dans la version française d’Aleda, autrement dit la dérivation effectuée à partir de l’édition française de Wikipedia et des ressources GeoNames pour lesquelles un label en français est renseigné18_{. Des versions anglaise, espagnole}

et allemande sont également en développement. Pour les lieux, le typage des ressources est immédiatement déduit de leur origine dans GeoNames. Au type lieu s’ajoutent de possibles sous- types correspondant à ceux qui peuvent être définis dans GeoNames (cf. figure 3.7)19_{. La table 3.6}

Dans le document Identification automatique d'entités pour l'enrichissement de contenus textuels (Page 86-97)