Entités et connaissances pour l’identification

L’identification automatique d’entités repose notamment dans l’approche proposée ici sur l’appli- cation de la méthode générale du Liage présentée au chapitre 3 (section 3). Il s’agit principalement de pondérer les hypothèses de dénotation d’une entité, répertoriée dans un ensemble préalable- ment constitué, par une mention donnée en fonction de similarités observables entre le contexte de cette mention et les informations associées à l’entité considérée au sein de la base de connaissances (BC) adoptée pour la tâche.

La constitution de cette BC revêt un aspect important dans la conduite de cette tâche, dans la mesure où les informations mises à disposition doivent permettre une comparaison pertinente avec le contexte d’occurrence des mentions à aligner. Il s’agit ainsi de se munir de connaissances de type similaire ou comparable à celui des données traitées. La BC considérée doit également, et ce avec le même degré d’importance, présenter une couverture en termes d’entités permettant de maximiser les alignements informatifs avec les mentions présentes dans la production textuelle de l’AFP, autrement dit de retourner dans le plus grand nombre de cas possibles une identification d’entité plutôt qu’une référence de type NIL. Comme cela a été évoqué, le domaine à couvrir à ce niveau est d’ordre général, et les entités mentionnées dans les corpus de l’AFP pour lesquelles une identification constitue une information pertinente présentent une notoriété établie dans l’espace public.

Dans le cadre de la tâche de Liage définie par la campagne d’évaluation TAC-KBP, la BC mise à disposition des participants consiste en une dérivation de l’encyclopédie en ligne Wikipedia, présentée au chapitre 3 (section 1.3). Celle-ci présente en effet un nombre d’entités et une distribution en termes de domaines adaptés aux corpus à traiter, en grande partie formés à partir de documents journalistiques et non restreints à un domaine particulier. Chaque entité répertoriée dans cette base bénéficie de plus de l’ensemble des informations rassemblées à son sujet au sein de l’article encyclopédique dont elle fait l’objet ; ces informations relèvent de caractéristiques associées aux entités, telles que les attributs biographiques ou typologiques, mais également d’une forme de contextualisation des entités, grâce au contenu textuel de l’article ainsi que des mentions faites de l’entité considérée dans les autres articles de l’encyclopédie. On peut observer que, dans le cadre de TAC, l’inventaire d’entités et la BC constituent un seul et même ensemble, exclusivement dérivé de Wikipedia.

La présente approche propose de s’appuyer, comme dans le cadre de TAC-KBP, sur Wikipedia afin de constituer la BC nécessaire au fonctionnement du système à élaborer, mais également sur d’autres ressources. Plus précisément, il s’agit de définir d’une part un ensemble d’entités considéré comme adéquat de par son périmètre quantitatif et thématique, Aleda, et d’autre part une BC associée, Nomos-kb, établissant pour chaque entité inventoriée les informations nécessaires à leur alignement lors de l’identification.

2.2.1 Aleda

La version française d’Aleda utilisée ici est à ce jour formée de deux ensembles d’entités, établis à partir de Wikipedia pour les entités de type person et organization5 _{et de GeoNames, également}

présenté au chapitre 3 (section 1.3), pour les entités de type location. Le périmètre des entités disponibles est ainsi en adéquation avec les besoins de la tâche puisqu’il hérite de la couverture de

5. Aleda définit un type company pour les entreprises, que nous intégrons en pratique au type organization. Cette base comprend également des entités de type product (produits et marques), work (œuvres, films, romans...) et fictionchar (personnages de fictions), obtenues à partir de Wikipedia, que nous ne considérons pas dans la présente tâche d’identification. Les informations relatives à la population d’Aleda dans ce chapitre sont donc entendues à l’exclusion de ces entités.

2. Ressources : Corpus et connaissances 171 GeoNames, particulièrement exhaustive et riche en termes de caractéristiques des lieux recensés, ainsi que de Wikipedia. Comptant environ 920 000 entités, Aleda est comparable par sa taille à la BC fournie aux participants de TAC-KBP.

La base Aleda associe à chaque entité un ensemble d’attributs de nature statique dérivés des ressources correspondantes, listés à la table 3.7 et reproduite ici (table 5.7). Aleda présente par ailleurs un ensemble de variantes lexicales pour chaque entité, également dérivées de Wikipedia et GeoNames et, pour les noms de personnes, augmentées de variantes calculées à partir de la structure en prénom, nom de famille et autres noms tels que les middle names américains. La définition de ces variantes lexicales en relation avec les entités, intervenant lors de la construction de la base Aleda et donc indépendamment du système pour lequel elle est utilisée, permet de disposer immédiatement et sans temps de calcul supplémentaire de l’index inversé utile pour la constitution de l’ensemble des entités candidates lors de l’alignement des mentions (cf. chapitre 3, section 3.3).

Les tables 5.8 et 5.9 présentent quelques exemples d’entités et de variantes recensées par Aleda. La table 5.10 rappelle la distribution des entités par type ; les tables 5.11 et 5.12 rendent compte, pour les 801 003 entités et 972 646 variantes d’Aleda, des taux de synonymie et de polysémie respectifs.

Attribut Aleda Attribut Wikipedia Attribut GeoNames

Identifiant [nombre entier unique] [nombre entier unique]

Nom canonique titre d’article nom canonique (souvent nom en an-

glais)

Type typage Wikipedia GeoNames → type location

Poids taille de l’article nombre d’habitants

Description premiers mots du résumé -

Lien URI Wikipedia URI GeoNames

préfixe d’URI :

http://wikipedia/wiki/

préfixe d’URI :

http://geonames.org/ préfixe d’URI abrégé : wp/ préfixe d’URI abrégé : geon/

Sous-type - correspondance (cf. table 3.6 p. 95)

Code pays - code pays

Longitude - longitude

Latitude - latitude

Table 5.7 : Correspondance entre attributs Aleda et Wikipedia ou GeoNames.

2.2.2 Nomos-kb

Parallèlement à l’inventaire d’entités fourni par Aleda, une BC à proprement parler est donc constituée, principalement à partir de Wikipedia et de façon comparable aux travaux réalisés par les différents participants à la tâche de TAC-KBP, référencés au chapitre 3 (section 3). La présente tâche d’identification étant à réaliser sur des données en français, l’édition linguistique française de Wikipedia est adoptée. Dans cette base, appelée Nomos-kb, les entités de type person et organization répertoriées dans Aleda sont associées à des connaissances dérivées de Wikipedia, c’est-à-dire des articles dont elles sont le sujet ainsi que des contextes de chacune de leurs occurrences au sein d’autres articles. Les entités de type location, non obtenues à partir de Wikipedia mais de GeoNames, donnent lieu à des informations de type différent, décrites ci-après. Si Wikipedia constitue une source d’information riche au sujet des entités, sa qualité de corpus encyclopédique la distingue nettement des corpus à traiter dans la tâche d’identification,

ID et nom Attributs Variantes 1000000000001054 Émile Benveniste type : person poids : 15 lien : wp/Émile_Benveniste descr.: [. . . ] linguiste français [. . . ]

Benveniste E. Benveniste Emile Benveniste É. Benveniste Émile Benveniste 2000000000745044 Istanbul type : location sous-type: city poids : 11 174 257 code pays : TR long./lat.: 28,949 66, 41,013 84 lien : geon/745044 Istanbul Byzance 2000000003017382 Republic of France type : location sous-type: country poids : 64 768 389 code pays : FR long./lat.: 46, 20 lien : geon/3017382 France Republique Française 1000000003065020 Parti radical de gauche

type : organization

poids : 37 descr. : [. . . ] parti politique

français [. . . ]

lien :

wp/Parti_radical_de_gauche

Parti radical de gauche Parti Radical de Gauche Parti Radical de gauche Parti radical de Gauche PRG

Mouvement des Radicaux de Gauche

Table 5.8 : Exemples d’entrées de la base Aleda.

Entités

ID Type Nom canonique

2000000002510769 location Kingdom of Spain

1000000000050915 person Michael Jordan

1000000000680078 person George W. Bush

2000000005379513 location Orange (California)

1000000000059373 organization Orange

Variantes

ID Variante FirstName MidName LastName

2000000002510769 Espagne – – –

1000000000050915 M. Jordan M. – Jordan

1000000000050915 Michael Jordan Michael – Jordan

1000000000050915 Jordan – – Jordan

1000000000680078 George Walker Bush George Walker Bush

1000000000680078 George Bush George - Bush

2000000005379513 Orange – – –

1000000000059373 Orange – – –

2. Ressources : Corpus et connaissances 173

person organization location Total

304 158 59 652 465 926 801 003

Table 5.10 : Distribution des entités d’Aleda par type.

# Variantes par entité # Entités

1 620 565

2 109 291

> 2 71 147

# max. = 102 1

Table 5.11 : Nombre d’entités d’Aleda associées à 1, 2, plus de 2 et 102 variantes (nombre maximal d’associations).

# Entités par variante # Variantes

1 903 753

2 47 119

> 2 21 774

# max. = 246 1

Table 5.12 : Nombre de variantes d’Aleda associées à 1, 2, plus de 2 et 246 entités (nombre maximal d’associations).

en termes d’organisation et de structuration des documents mais également de distribution du lexique et des entités mentionnées. Afin que les connaissances obtenues soient comparables aux contextes de mentions lors de l’alignement, leur dérivation à partir des articles de Wikipedia doit correspondre à la représentation des dépêches de l’AFP adoptée dans cette tâche, décrite précédemment (table 5.6).

La collecte d’informations relatives aux entités est effectuée selon ce schéma à partir des éléments structurants des articles (cf. aussi la figure 3.4). Les connaissances ainsi rassemblées correspondent alors aux contextes c d’occurrences de mentions m, permettant une comparaison point à point entre des entités candidates e et m lors du processus d’identification. L’ensemble des articles de Wikipedia est considéré pour la construction de Nomos-kb ; cet ensemble distingue les articles concernant les entités recensée par Aleda, nommés ici e-articles, des articles dits généraux ou g-articles. Les éléments structurants d’articles pertinents pour cette collecte sont les suivants :

Titre Chaque article de Wikipedia est identifié par un titre, correspondant à un nom normalisé ou

canonique pour les e-articles. En cas d’ambiguïté entre plusieurs sujets d’articles de même nom et donc entre articles de même titre, une propriété discriminante est indiquée entre parenthèses à la suite de ce nom. On trouve par exemple les titres François Morel (acteur) ou Les Verts (France). Pour les entités concernées par les e-articles, cet élément parenthésé, noté e-titlepar, est souvent informatif dans la mesure où il indique par exemple la profes-

sion ou la qualité de personnalités (chanteur, acteur, homme politique), le secteur d’activité ou le type d’entreprises et d’organisations (maison d’édition, informatique). Le e-titlepar

constitue alors un élément de contexte lexical revêtant un caractère descriptif particuliè- rement saillant pour l’entité concernée e ; on peut en effet supposer que la présence du

e-titlepar d’une entité candidate e dans c constitue un trait positivement discriminant

quant à la probabilité de dénotation de e par m.

Contenu textuel Le contenu de l’article lui-même constitue un contexte lexical ou vocabulaire

Un traitement similaire à celui des dépêches est donc appliqué aux articles de Wikipedia (e-articles et g-articles) afin d’obtenir un sac de mots, pondéré en termes de nombre d’occurrences (ensemble Ebow1) et de saillance (ensemble Esbow1). Chaque entité e d’e-

articles est ainsi associée à un Ebow1 et un Esbow1, dont les éléments munis des scores les

plus élevés en termes de test t peuvent être considérés comme des descripteurs pertinents de e. De façon similaire avec ce qui a été décrit pour le e-titlepar, les descripteurs les

plus saillants peuvent ainsi contribuer à évaluer la probabilité d’alignement de m avec e selon que ces descripteurs sont ou non dans c.

Catégories Les articles de Wikipedia sont en grande majorité associés à des catégories d’ordre

thématique ou descriptif et de granularité souvent très fine mais ne correspondant pas à un modèle sémantique défini. On trouve par exemple les catégories Événement récent,

Mathématicien du XXe _{siècle, Vicomte (Belgique) ou Lauréat de la médaille Fields associées}

à l’article concernant le mathématicien Pierre Deligne. Ces catégories ne constituent dont pas en tant que telles une information comparable à celles que présentent les dépêches de l’AFP avec les slugs. Elles font en revanche l’objet, pour leur utilisation dans Nomos-kb, d’une normalisation permettant d’obtenir des formes lexicales proches du e-titlepar; les

catégories suivantes :

Linguiste français, Sénateur du Nebraska, Militaire né à Metz, Architecture gothique aux Pays-Bas

sont normalisées en :

linguiste, sénateur, militaire, architecture

par une normalisation consistant à conserver uniquement le premier mot du terme dé- signant la catégorie en lettres minuscules. Les formes obtenues constituent alors, de fa- çon similaire au statut du e-titlepar, des descripteurs relatifs aux entités e (ensemble

Ecats1), pouvant s’avérer pertinents dans le processus d’identification par comparaison avec

le contexte c.

Afin de permettre un rapprochement structurel des connaissances concernant les entités avec la forme des dépêches de l’AFP, les catégories d’articles ainsi normalisées peuvent être mises en correspondance avec les slugs décrits précédemment. Les catégories et slugs repré- sentent en effet un type d’information de même nature, proche du principe des mots-clés et ne présentant pas de sémantique définie dans un modèle formel particulier. La correspondance entre catégories et slugs6 _{a été concrètement obtenue par la mise en relation}

des termes identiques dans chacune des deux listes (bourse et bourse) ou par association manuelle des termes jugés synonymes dans ce cadre particulier (sport et sport, sportif ). Cer- taines entités de Nomos-kb présentent ainsi, en plus d’un ensemble de catégories associées, un ensemble de slugs lorsque des correspondances sont possibles (ensemble Eslugs1). Lors

du processus d’identification, ces catégories et slugs d’entité peuvent ainsi faire l’objet de comparaisons avec les slugs de c, afin d’établir le degré de similarité entre e et m à ce niveau7_{. La liste des catégories de Wikipedia pour lesquelles une relation de correspon-}

dance a été établie avec des slugs de l’AFP, au nombre de 378, est reproduite à l’annexe A, table A.1.

6. La liste des slugs AFP est définie en relation avec la taxonomie thématique de l’IPTC. Elle est reproduite à l’annexe A (tables A.1 à A.5).

7. Les slugs attribués aux dépêches par les journalistes ne sont pas limités à la liste fermée définie relativement à la taxonomie IPTC, tout terme jugé pertinent pouvant être utilisé. La comparaison entre slugs hors liste et catégories peut néanmoins être réalisée par association des termes identiques.

2. Ressources : Corpus et connaissances 175

Wikilinks (1) Comme expliqué au chapitre 3, les mentions de sujets recensés dans Wikipedia au

travers des articles de l’encyclopédie se présentent, au sein des contenus textuels, sous la forme de balises spéciales ou wikilinks, indiquant pour une mention donnée le lien interne de l’article dédié au sujet correspondant. L’article concernant le logicien Gottlob Frege men- tionne ainsi Betrand Russel, auquel correspond également un article dans l’encyclopédie :

[. . . ] où il tente de dériver l’arithmétique de la logique, que

<a href="/wiki/Bertrand_Russell" title="Bertrand Russell">Russell</a>

lui fait parvenir [. . . ]

Dans les cas où ces liens renvoient à des e-articles, les wikilinks en question constituent des mentions d’entités identifiées et sont ici notés e-wikilinks.

Dans chaque e-article, l’ensemble des e-wikilinks de l’article constitue, comme les mentions présentes dans les dépêches de l’AFP, une forme de représentation du document au même titre que le vocabulaire dérivé de son contenu textuel. Chaque entité e référencée par ces e-wikilinks, notée ewl, se présente comme un descripteur pertinent pour l’entité e faisant l’objet de l’article en question, à un niveau non seulement lexical mais également référentiel. On peut considérer, lors du processus d’identification, que la présence de ces ewl dans c, sous la forme des mentions correspondantes, augmente la probabilité d’alignement de m avec e. Dans les autres articles de l’encyclopédie Wikipedia (e-articles ou g-articles), un contexte du même type peut être constitué pour chaque entité faisant l’objet d’un e-wikilink. Nomos-kb recense ainsi toutes les co-occurrences d’e-wikilinks renvoyant à des entités d’Aleda. Chaque e est alors associée à ensemble d’entités qualifiées de parentes, au premier degré pour celles dont mention est faite au sein de l’article concernant l’entité considéré (ensemble Eewl1), et au second degré pour les parentes observées en co-occurrence avec

cette entité au travers de l’ensemble des articles de Wikipedia (ensemble Eewl2).

Articles connexes Un certain nombre d’articles de Wikipedia référencent de façon explicite, dans

une section spéciale, les articles dits connexes, dont le sujet est en relation particulièrement proche avec le sujet courant. On trouve par exemple des liens vers les articles concernant Bertrand Russel ou la philosophie du langage sous la rubrique « Articles connexe » de l’article au sujet de Gottlob Frege. 14 924 e-articles présentent entre 1 et 20 liens vers des e-articles connectés, qui sont recensés dans Nomos-kb en tant qu’entités parentes au premier degré pour chacune des entités concernées (ensemble Erel), s’ajoutant ainsi aux

co-occurrences dérivées des e-wikilinks (Eewl1 et Eewl2).

Catégorisation thématique Les catégories d’articles utilisées dans Wikipedia ne sont pas aisé-

ment assimilables à des classes thématiques telles que celles proposées pour la publication journalistique par l’IPTC et se rapprochent davantage de mots-clés. Dans la même perspec- tive d’un rapprochement structurel des connaissances concernant les entités avec la forme des dépêches de l’AFP, il est en revanche possible de munir les articles de Wikipedia, et par conséquent les entités concernées par les e-articles, d’informations relatives à la ca- tégorisation thématique de l’IPTC : un modèle de classification obtenu par apprentissage supervisé à partir de corpus de l’AFP, pour lesquels les catégories IPTC sont indiquées, permet d’assigner à chaque article de Wikipedia (e-articles et g-articles) une ou plusieurs de ces catégories. Les modalités de l’acquisition de ce modèle par apprentissage automatique sont exposées à l’annexe A. Les entités d’e-articles disposent ainsi dans Nomos-kb d’informations thématiques (ensemble Eiptc1) comparables aux contextes d’occurrences des

mentions à aligner lors du processus d’identification. La distribution de ces entités en termes de catégories IPTC est également donnée à l’annexe A.

Wikilinks (2) Les e-wikilinks apparaissant au travers des articles de Wikipedia (e-articles et g-

articles) permettent également d’associer aux entités ainsi mentionnées certaines des informations propre à chacun de ces articles. Ceux-ci présentent en effet en tant que tels un vocabulaire pondéré notamment en termes de saillance, comme évoqué précédemment, ainsi que des informations relatives à leurs catégories, slugs et sujets IPTC, après applica- tion des traitements évoqués précédemment. Parallèlement aux entités parentes de Ewl2,

les indications de saillance lexicale, catégories, slugs et sujets IPTC de cet article sont éga- lement associées à toute entité e faisant l’objet d’un e-wikilink. Ces indications viennent enrichir les connaissances de même type déjà collectées pour e dans le contexte de l’article qui lui est dédié — ces dernières étant considérées comme primaires (ensembles Ebow1,

Esbow1, Ecats1, Eslugs1, Eiptc1, Eewl1 et Eewl2) — avec les ensembles Ebow2, Esbow2,

Ecats2, Eslugs2, Eiptc2, de statut secondaire.

Mentions Les occurrences d’une même entité e par le bias d’e-wikilinks au travers de l’ensemble

des articles de Wikipedia (e-articles et g-articles) font intervenir différentes variantes lexicales dénotant e. Le nombre d’associations entre l’une de ces variantes et une entité e dans les e-wikilinks est reporté dans Nomos-kb. On dispose ainsi pour chaque entité e d’un ensemble de variantes (ensemble Evars) pondéré en fonction du nombre d’emplois de chaque

variante dans Wikipedia. On obtient également indirectement un nombre total d’occurrences de chaque entité, noté Ef req, pouvant être considéré comme le reflet d’une certaine po-

pularité, à l’image de l’attribut poids intégré à Aleda — calculé quant à lui relativement à la taille de l’article concernant une entité. Les mentions sont également recensées en tant que telles, indépendamment des entités qu’elles dénotent ; le nombre d’occurrences d’une chaîne de caractères en tant que mention, noté Mf req, dans un corpus de référence tel que

Wikipedia, peut en effet constituer un indicateur utile dans le processus de reconnaissance de mentions et de repérage des faux positifs.

La table 5.13 récapitule la nature des connaissances ainsi rassemblées dans Nomos-kb pour chaque entité de type person et organization dans Aleda, à partir de l’article la concernant spécifiquement d’une part, et des autres articles de l’encyclopédie d’autre part (concernant ou non une autre entité d’Aleda). Les modalités d’utilisation de ces connaissances en relation avec les contextes d’occurrence des mentions à aligner seront précisées au chapitre 6, dans le cadre de la description fonctionnelle du système d’identification d’entités proposé.

Lieux Les entités de type location, importées dans Aleda à partir de GeoNames et non de

Wikipedia, présentent quant à elles des connaissances relatives à leur emploi dans la production de l’AFP. Il est en effet possible d’établir une correspondance entre certaines métadonnées des

Dans le document Identification automatique d'entités pour l'enrichissement de contenus textuels (Page 171-179)