• Aucun résultat trouvé

La Population de Bases de Connaissances et le Liage d’Entités

L’Extraction d’Information ne constitue pas qu’un prédécesseur aux pratiques récentes du Web Sémantique : elle donne également lieu à un renouvellement interne mené de façon parallèle, dont l’aspect principal consiste en une modélisation de l’information sous forme de bases de

connaissances. En tant que structure de représentation de l’information, les bases de connaissances

(BC) jouent le rôle des formulaires employés dans le cadre des diverses approches historiques d’Extraction d’Information, mais s’apparentent aux structures mises en avant notamment dans le Web Sémantique, c’est-à-dire aux modèles fondés sur une conceptualisation formelle et explicite tels que les ontologies. Les BC constituent une généralisation de ces modèles formels, en tant qu’artefact permettant le regroupement de descriptions, faits et règles propres à un domaine. L’association d’une ontologie en tant que support d’une conceptualisation et d’un ensemble d’individus pouvant être décrits par cette ontologie est ainsi usuellement désigné comme une BC, sans qu’une BC doive nécessairement faire l’objet d’une telle formalisation de façon explicite. Il s’agit ainsi d’un mode de représentation générique dans laquelle un ensemble d’entrées peuvent être enregistrées et associées à des informations dont la structuration est systématisée. Chaque élément d’une BC, de façon similaire à celui d’une ontologie, peut être qualifié de nœud .

Dans la perspective d’un traitement de l’information et de sa représentation dans des BC, les campagnes ACE [Dod+04] et TREC30, consacrées notamment à la Reconnaissance d’Entités

Nommées à partir de contenus textuels pour la première (cf. chapitre 2, section 3), et aux systèmes de Question-Réponse pour la seconde, connaissent un renouvellement de leus problématiques dans le cadre de la campagne TAC depuis 2009. Organisée par l’agence américaine NIST31 autour

des recherches en TAL, TAC (Text Analysis Conference) présente en effet une tâche consacrée à la Population de Bases de Connaissances (Knowledge Base Population, abrégé en anglais en KBP, ci-après PBC), dans laquelle il s’agit d’adapter l’Extraction d’Information classique à la forme de structuration des BC, plus sophistiquée, stable et persistante que les formulaires qui l’ont précédée. La voie ouverte par la PBC est particulièrement pertinente en regard du problème de l’identi- fication d’entités dans notre cadre de travail : la tâche concerne en effet une BC principalement constituée d’entités et sa population à partir de documents textuels. Les types d’entités considérés correspondent à la restriction usuelle hérité du consensus en Extraction d’Information — per- sonnes, organisations et entités géopolitiques, . Elle atteste ainsi de façon comparable au Web Sémantique de la place essentielle des données textuelles dans le processus d’acquisition de connaissances. La population visée s’entend en termes d’augmentation des connaissances asso- ciées aux entités, sous forme d’attributs définis dont il s’agit de donner la valeur en fonction

30. http://trec.nist.gov/ 31. http://www.nist.gov/

3. Approche systématique de l’identification d’entités 111 des informations repérées dans les documents fournis. Cette augmentation peut par ailleurs s’en- tendre au niveau des entités elles-mêmes, par la découverte de nouvelles entités à partir de ces documents, susceptibles de venir enrichir la population existante.

TAC définit pour la PBC deux sous-tâches fondamentales à réaliser dans cette perspective :

Entity Linking ou Liage d’entités et Slot Filling ou « remplissage de champs ». La première consiste,

à partir d’une mention textuelle d’entité au sein d’un document, à identifier parmi les entrées de la BC l’entité à laquelle elle réfère. La seconde sous-tâche procède ensuite à l’extraction d’in- formations concernant cette entité dans le contexte d’occurrence de la mention, ces informations devant correspondre aux attributs prédéfinis pour chaque entité de la BC — date de naissance pour les personnes ou année de création pour une organisation, par exemple. Il importe donc que la première sous-tâche de Liage identifie de façon univoque l’entrée de la BC concernée par une mention afin que les informations collectées dans son contexte d’occurrence puissent être agrégées au niveau de l’entrée adéquate.

L’identification d’entités trouve ainsi dans le Liage d’Entités une formulation pertinente et utile : le Liage bénéficie dans le cadre de la PBC d’une spécification explicite et motivée des différents problèmes et cas à traiter quant au phénomène dénotationnel, et ce relativement à des ressources d’entités préalablement constituées. On peut observer un développement parallèle caractérisant l’AS et la PBC, avec une distribution des points d’intérêt centraux : il s’agit en AS de donner forme à l’objectif de formalisation des connaissances pour le Web Sémantique, tandis que la PBC donne lieu à une orientation des recherches vers des techniques spécifiques au passage entre niveau textuel et niveau formel, autour des entités en particulier.

Les trois éditions de PBC dans le cadre de TAC (2009, 2010 et 2011) ont donné lieu à des synthèses descriptives, dans lesquelles McNamee et Dang [MD09] ainsi que Ji et al. [Ji+10] et Ji et al. [JGD11] soulignent les enjeux, solutions et problèmes restant à traiter dans cette tâche. L’orga- nisation de cette conférence permet en outre de susciter un nombre important de participations sous forme de différents systèmes, porteurs d’une variété méthodologique et d’innovations utiles pour une approche conséquente de la tâche. Enfin, les différentes éditions de PBC apportent un élément essentiel manquant à l’AS en définissant un cadre et des métriques d’évaluation dédiées à la tâche. Le Liage dans le cadre de la PBC de TAC demeure cependant partiel quant à la prise en charge complète du problème dénotationnel dans des configurations plus réalistes que celles d’une campagne d’évaluation ; ces métriques sont donc limitées au cas spécifique traité par TAC, comme cela sera discuté plus loin.

3.1.2 Le Liage d’entités : problème visé

À la différence de l’approche réservée aux entités dans des cadres d’Extraction d’Information tels que ACE et TREC, TAC vise avec la PBC à rassembler des informations pertinentes relativement à un ensemble d’entités pré-établi. La dimension référentielle des entités y est ainsi explicitement modélisée, par opposition aux tâches de résolution d’anaphore et de coréférence (cf. chapitre 2, section 3.3) où le référent demeure implicite et interne à l’ensemble de documents traités. Ces entités sont identifiées en tant qu’entrées d’une BC, qui définit pour chacune d’elles un ensemble de champs informatifs normalisés. La structure d’une BC dépasse en effet les formulaires tradi- tionnels de l’Extraction d’Information en maintenant les cibles d’extraction en un tout cohérent et persistant, et en liant de façon systématique les sources d’extraction à ces cibles. Il s’agit no- tamment de prendre en charge les phénomènes de redondance, de complémentarité et de conflit pouvant toucher les informations collectées. Chaque conduite d’un processus d’Extraction d’In- formation sur un nouveau corpus documentaire peut en effet mener au repérage d’informations sur une entité dont il est utile de déterminer si la BC en dispose déjà, c’est-à-dire si l’attribut correspondant présente déjà une valeur, si cette valeur est identique à la nouvelle proposition ou si une contradiction en émerge. Il peut par exemple s’agir de la date de naissance d’une personne,

à ajouter si elle est non spécifiée, mais à indiquer comme un attribut en conflit si une valeur différente est déjà indiquée ; l’identité de la personne occupant un poste dans une organisation peut en revanche changer au cours du temps, et l’attribut correspondant peut donc voir sa valeur mise à jour au fil des traitements. Ces aspects de maintenance de l’information sont directement liés à l’intérêt de la PBC pour une Extraction d’Information à partir de larges corpus textuels et à la variété informative qu’ils véhiculent.

La sous-tâche de Liage d’Entités (ci-après Liage) se définit alors comme l’ancrage des mentions observées en corpus dans un nœud de la BC, avant que toute information relative à l’entité dénotée puisse y être associée. La correction des informations s’entend ainsi en PBC au niveau de la BC elle-même, par contraste avec une erreur en Extraction d’Information traditionnelle qui peut n’affecter qu’un formulaire. La définition du Liage en PBC vise à une prise en charge totale de ce problème d’ancrage en tenant compte du caractère nécessairement non exhaustif de la couverture fournie par la BC : le cas d’impossibilité de Liage est ainsi prévu et modélisé dans la tâche. Comme cela a été mentionné précédemment au sujet des ressources employées en AS (section 2.3), toute ressource présente potentiellement des lacunes quant aux éléments qu’il s’agit de mettre en relation avec des contenus textuels. Dans une BC d’entités, une cible peut être manquante en raison d’un processus de collecte incomplet ou erroné d’une part, ou de l’émergence d’une nouvelle entité dans l’actualité ou un domaine particulier d’autre part. Le Liage doit ainsi tenir compte d’une telle possibilité et un système idoine devra être en mesure de retourner, pour une mention donnée, une réponse vide plutôt qu’un ancrage sur un nœud quelconque de la BC, nécessairement erroné. Cette réponse vide modélise la notion d’entité

inconnue relativement à la BC et est identifiée en PBC par le terme « NIL ». L’identification des

cas NIL permet par ailleurs de fournir des candidats pour une augmentation de la BC en termes d’entités et non plus seulement d’attributs d’entités préexistantes. Bien que cet aspect de la population ne soit pas concrètement en jeu dans la tâche de PBC telle qu’envisagée par TAC (2009 et 2010), cette identification permet néanmoins une délimitation de la couverture de la BC à l’égard du corpus documentaire traité. L’édition de TAC de 2011 oriente le traitement des cas de NIL vers un statut d’entité davantage spécifié, en ajoutant à leur reconnaissance une tâche de clustering : les différentes mentions non liées doivent faire l’objet d’un partitionnement, dans lequel chaque partition ou cluster doit représenter une référence d’entité et non des chaînes non liées.

De façon générale, la spécification du Liage dans la PBC répond à un impératif de cohérence de l’information concernant les entités, dans la perspective de son exploitation ultérieure. En effet, une agrégation d’informations erronées sur une entité, due à un Liage de mention vers une entité incorrecte — erreur entre plusieurs entrées de la BC ou entre la BC et NIL —, conduit non seulement à une BC inexacte, mais également à la génération d’un bruit se propageant à tout traitement aval. Une indexation par entités pour un système de Recherche d’Information, par exemple, retournerait un ensemble de documents bruités dans le cas de mentions liées à une entité E1, alors qu’elles réfèrent en réalité à une entité E2 ou à une entité NIL.

La tâche de PBC et celle du Liage en particulier sont envisagées dans le cadre de TAC pour le traitement de documents en anglais et la BC elle-même provient de ressources en anglais. L’édition de 2011 intègre un composant multilingue avec une seconde sous-tâche de Liage sur des documents en chinois, à partir desquels les mentions d’entités à lier doivent l’être en direction de la BC construite en anglais. Cette extension s’intéresse ainsi au problème de la dénotation interlingue, les entités elles-mêmes ne relevant pas d’une langue en particulier.

3.1.3 Enjeux du Liage

Le problème de l’établissement d’une relation systématique entre texte et représentation est for- mulé dans le Liage en termes de mentions textuelles d’entités et d’entrées d’une BC, celles-ci

3. Approche systématique de l’identification d’entités 113 donnant une représentation des entités. Comme en AS et à la différence de l’Extraction d’Infor- mation, une telle relation est de nature référentielle et vise des objets qualifiables d’individus, en lieu et place d’un modèle uniquement typologique. La notion d’identification peut être attachée au Liage en raison de la nature de cette relation.

La tâche de Liage intègre de façon systématique les raisons possibles de la non-univocité existant entre mentions (expressions linguistiques) et entités (individus extra-linguistiques) [MD09 ; Ji+10 ; JGD11] :

Ambiguïté Le phénomène dénotationnel à l’œuvre entre mentions et entités est touché par une

ambiguïté pouvant avoir deux origines principales :

Synonymie Une même entité peut être désignée par plusieurs expressions linguistiques.

Celles-ci peuvent être de différentes natures : noms propres, descriptions définies ou pronoms, qui constituent un premier degré de variation touchant la dénotation. Au niveau des seuls noms propres, auxquels le Liage s’intéresse exclusivement, la variation est également à considérer.

Elle se réalise d’une part au niveau surfacique, comme dans les exemples : (9) Hillary Clinton, H. Clinton, H. R. Clinton, Clinton

(10) Organisation des Nations Unies, ONU

où l’abbréviation ou l’acronymie interviennent. Les variations surfaciques sont égale- ment pour une large part dues aux phénomènes de translitération et de traduction, lorsque des noms d’entités étrangères sont adaptés à la langue de mention. On trouve ainsi pour une même entité, l’ancien chef de l’État lybien, une centaine de variantes lexicales différentes selon les règles de translitération adoptées, dont :

(11) Kadhafi, Khadafi, Gaddafi, Kadhaffi, Mu’Ammar El Qathafi, Moammar Qudhafi, etc..

Certains noms de personnes ou de lieux font l’objet de traductions, de façon plus ou moins systématique : on a en français

(12) Londres, Moscou

et non London ou Moskva, mais (13) Istamboul ou Istanbul ainsi que

(14) Fiodor, Fédor, Fedor ou Théodore Dostoïevski ou Dostoiewsky où se combinent variation de translitération et traduction32.

La variation se réalise d’autre part à un niveau qui peut être qualifié d’encyclopédique, dans les cas de surnoms, pseudonymes, changements au cours du temps comme dans ces exemples :

(15) Ali Hassan al-Majid, Ali le Chimique (16) Paris, la Ville Lumière

(17) Prince, Love Symbol, TAFKAP, The artist formerly known as Prince (18) Kate Middleton, Duchesse de Cambridge

32. Les variations surfaciques peuvent également provenir d’erreurs orthographiques, dont il n’est pas spécifiquement question dans le cadre de TAC-KBP mais qui constituent également un problème dans l’établissement de liens entre mentions et entités. On peut également évoquer le cas des variations dans l’ordre prénom-nom selon les langues, ou des modes de dénomination particuliers concernant notamment les membres de familles royales et princières (Albert

Polysémie Une même expression linguistique peut référer à plusieurs entités et est alors

polysémique, de façon incidentelle en cas d’homonymie entre plusieurs entités : (19) En 1720, la peste frappe Orange et y fait 550 victimes.

(20) L’action d’Orange perd aujourd’hui 4 points.

Si ces entités entretiennent une relation, la polysémie peut alors relever non d’un caractère incidentel mais d’un phénomène de métonymie, particulièrement saillant entre lieux et organisations. Le nom d’un lieu peut en effet régulièrement être employé pour dénoter une organisation qui y est localisée, qui la représente, etc.

(21) Barcelone remporte pour la quatrième fois la Ligue des Champions en 2011. (22) Parmi les autres marchés européens, Francfort a perdu 0,68% et Londres 0,03%.33

Couverture La relation entre mention et entité par rapport à une BC donnée n’est pas systéma-

tique, en raison de l’incomplétude pouvant caractériser cette BC, comme évoqué précédem- ment.