Méthodologie pour le Liage - Identification automatique d'entités pour l'enrichissement de cont

La typologie méthodologique du Liage fait apparaître un certain nombre de composants relativement communs à tous les systèmes présentés ; ces composants correspondent au fonctionnement de la tâche tel que prescrit par les organisateurs, ainsi qu’au problème central d’alignement entre mentions et entités. Les différents systèmes varient principalement selon les modalités de représentation sémantique de la proximité entre mentions et entités. Ces variations relèvent notamment du caractère purement lexical de cette représentation, ou de l’intégration de facteurs d’ordre structurel, thématiques ou de domaine.

Une décomposition systématique du Liage apparaît dans la synthèse de la tâche proposée en 2010, à l’issue de la deuxième édition de PBC [Ji+10]. D’après les propositions méthodologiques présentées au cours des trois éditions de TAC ainsi que dans les travaux portant sur le Liage publiés par ailleurs, il est possible d’établir une décomposition minimale comptant deux sous- tâches essentielles, ainsi qu’une extension jusqu’à cinq sous-tâches.

Composants minimaux

1. Génération de candidats L’espace de recherche pour l’alignement des mentions avec la BC, qui consiste en principe en l’ensemble des entités membres de cette BC, est réduit à un sous- ensemble de taille plus manipulable. Celui-ci comprend les entités de la BC dont il peut être établi qu’elles constituent des candidats valides pour l’alignement d’une mention donnée. Cette réduction implique l’introduction d’un critère permettant de sélectionner les candidats, ce critère pouvant être considéré comme un élément de connaissance partiel sur la relation entre mentions textuelles et entités. Dans sa formulation générale et au niveau de cette réduction en particulier, le Liage s’apparente à la tâche de désambiguïsation lexicale [IV98], où il s’agit de déterminer le sens d’un mot dans un contexte d’usage donné. Il est supposé qu’un mot comprend un nombre fini de sens discrets, disponibles sous forme de références dans une ressource telle qu’un dictionnaire ou un thesaurus. Le processus de désambiguïsation consiste alors à associer le mot considéré à l’un de ses sens, relativement au contexte courant. En transposant ce schéma fonctionnel au Liage, on peut procéder à une réduction de l’espace des entités effectivement candidates à l’alignement d’une mention, à condition de disposer d’un moyen de sélection de ces entités traduisant une relation de correspondance sémantique.

La majorité des systèmes de Liage procèdent à la génération de candidats en s’appuyant sur une connaissance a priori des différentes variantes lexicales pouvant dénoter chaque entité de la BC. Ces variantes sont alors collectées au préalable à partir de Wikipedia, selon une méthode identique à celle présentée pour la constitution des labels d’entités dans DBpedia, Aleda ou NLG- bAse (section 1.3) : le titre de l’article, les liens de redirections, les pages de désambiguïsation ainsi que, dans certains cas, les ancres textuelles de wikilinks correspondant à une même entité sont rassemblées sous forme de dictionnaire de variantes, dont on peut obtenir un index inversé. Pour une mention donnée, un ensemble de candidats possibles est ainsi automatiquement accessible.

La réduction de l’espace des cibles pour l’alignement des mentions répond à un objectif d’efficacité de calcul, puisque l’intégralité de la BC, qui compte plus de 800 000 entrées, se prêterait difficilement à une recherche intégrale. Il faut cependant souligner que cette étape influe potentiellement sur l’accomplissement global de la tâche : elle doit en effet garantir la présence de l’entité effectivement dénotée parmi les candidats. Le processus de sélection doit donc réduire

l’espace de recherche de façon notable tout en évitant le silence. Les systèmes de Bunescu et Pasca [BP06], Cucerzan [Cuc07], Mendes et al. [Men+11b], Zhang et al. [Zha+10], Han et Sun [HS11] ou Ploch [Plo11] utilisent cette méthode. Ji et al. [JGD11] rapportent un taux rappel supérieur à 95% pour la majorité des systèmes.

Un cas notable d’inefficacité de l’établissement a priori des correspondances entre variantes et entités serait celui où une entité serait dénotée à l’aide d’une mention nouvelle pour cette entité ou manquée lors de la collecte préalable. Cette mention non associée à l’entité considérée par le processus d’indexation en amont ne pourrait donner lieu à la génération du candidat approprié, qui ne serait donc pas considéré pour son alignement.

L’étape de génération peut par ailleurs donner lieu à un pré-ordonnancement, notamment sur la base d’une probabilité a priori. Cette probabilité peut correspondre à un sens par défaut attribué à une mention. Il peut être modélisé par un facteur de « popularité », déduit de l’importance de l’entité dans Wikipedia, notamment à partir de la taille de l’article correspondant [Men+11a ; Hof+11]. Cette probabilité a priori peut également être dérivée du nombre d’associations entre une mention donnée et chaque entité qu’elle dénote dans un corpus : dans Wikipedia, les dénotations d’entités par une mention donnée sont identifiables par les wikilinks ; l’entité la plus souvent dénotée par ce biais peut alors être considérée comme le sens par défaut de la mention, comme chez Ratinov et al. [Rat+11].

2. Ordonnancement des candidats À partir d’une requête (mention et document), l’ensemble des entités candidates doit être ordonné afin d’obtenir au premier rang l’entité adéquate. Comme évoqué précédemment, l’ordonnancement des candidats est généralement vu comme fonction d’une proximité sémantique quantifiée pour chaque candidat en regard de la mention. Cet ordonnancement est obtenu par l’application de la fonction g(m, e) ou fonction de score sm(e)

à l’ensemble des candidats, dont le candidat obtenant le score maximal est retourné par f (cf. section 3.2.1).

La définition de g se fonde sur une représentation des mentions et des entités dérivée de leurs contextes respectifs. Il s’agit pour les mentions des documents dans lesquelles elles apparaissent, et pour les entités candidates des éléments rassemblés pour chacune d’elles dans la BC, principalement le contenu textuel de l’article Wikipedia leur correspondant. Le cas NIL devant également être une réponse possible à la question de l’alignement d’une mention, un candidat spécial représentant une entité absente de la BC est intégré au processus d’ordonnancement. Il peut ou non faire partie de l’ensemble des candidats généré à l’étape 1 et être manipulé par la méthode d’ordonnancement de façon plus ou moins directe.

Décomposition élargie

1.a Expansion de la requête Avant l’étape de génération de candidats pour une mention donnée,

la requête peut faire l’objet d’une expansion, c’est-à-dire d’un enrichissement permettant de ne pas limiter les possibilités de génération de candidats à la seule chaîne de caractères de la mention. Ainsi, les mentions consistant en des acronymes, tels que FMI, donnent lieu chez Zhang et al. [Zha+11] à une recherche à l’échelle du document permettant d’associer les chaînes étendues, telles que Fonds monétaire international, à la requête.

Une requête peut également être enrichie par d’autres mentions de formes différentes, par les procédés de normalisation voire de résolution de coréférence appliqués à l’ensemble des mentions d’un document. Gottipati et Jiang [GJ11] étendent ainsi la requête, pour une mention m de type person ou organization, par la localisation des mentions dont m forme une sous-chaîne (cas des noms de personne apparaissant avec le nom de famille seul et avec prénom et nom de famille, par exemple) ; les requêtes dont la mention est de type location sont augmentées de toutes les autres

3. Approche systématique de l’identification d’entités 119 mentions également de type location (cas de noms de villes et de pays, les seconds étant un élément de contextualisation des premiers, par exemple). Gottipati et Jiang enrichissent également la requête des titres d’articles Wikipedia pour lesquels la mention constitue un lien de redirection ou identiques à la mention. L’expansion de la requête est obtenu par résolution de coréférence sur l’ensemble des mentions du document chez Taylor Cassidy et al. [TC+10]. On peut observer que, seule une mention dans le document étant fournie aux participants en tant que requête, les autres mentions utilisées dans ce procédé d’expansion doivent être obtenues par ailleurs, notamment par l’utilisation d’un système de Reconnaissance d’Entités Nommées, par exemple Stanford NER [FGM05] pour Taylor Cassidy et al.

1.b Génération de candidats Lors de l’étape de génération de candidats (cf. composant minimal

1 supra), une requête étendue augmente le nombre d’entités pouvant correspondre à l’entité dénotée par une restriction des sens de la mention. On peut observer que l’expansion de requête dans cet objectif, notamment à partir de mentions coréférentes au sein d’un document, part de la supposition qu’un même terme employé à plusieurs reprises dans un tel espace informatif véhicule nécessairement un sens unique [GCY92].

2.a Ordonnancement des candidats L’alignement est vu comme un problème d’ordonnance-

ment (cf. composant minimal 2 supra). Une proximité sémantique est mesurée pour chaque mention et chacun de ses candidats, à partir de leurs contextes respectifs. Le candidat permettant de maximiser cette proximité placé au premier rang de l’ordonnancement ainsi obtenu est retourné. Il est important d’observer que cette formulation se distingue de la configuration classique d’un problème d’ordonnancement ; il s’agit typiquement de la Recherche d’Information, qui retourne n documents pour une requête donnée, suivant un ordre décroissant de pertinence. Pour le Liage, le seul résultat pertinent à l’issue du classement par ordre de proximité est la valeur placée au premier rang. En effet, la notion d’ordre n’est plus discriminante à partir du deuxième rang, puisqu’un seul candidat peut être retenu comme réponse exacte, tous les autres étant consi- dérés comme invalides pour cette réponse — aucun candidat non aligné avec la mention n’est une réponse plus ou moins exacte. Le problème de l’alignement demande ainsi une réponse discrète — une seule entité — tandis que le moyen d’obtention de cette réponse est fondé sur une distribution de valeurs continues.

Les différentes approches méthodologiques proposées autour de l’ordonnancement des candidats constituent autant de définitions de la fonction f introduite précédemment (section 3.2.1), et plus particulièrement de la fonction g utilisée dans f. Elles sont présentées ci-après (section 3.3.2).

2.b Intégration du cas NIL La réponse à la requête peut être une entité issue de la BC, mais

également l’entité spéciale NIL représentant une entité absente de la BC. Ce cas est pris en compte de façon directe dans l’ordonnancement, par adjonction de l’entité spéciale à l’ensemble des candidats, ou indirecte, par décision au vu de la réponse retournée par l’ordonnancement. Les différentes approches pour l’intégration du cas NIL sont également présentées ci-après dans le cadre des méthodes d’ordonnancement.

3 Clustering NIL Lors de la dernière édition en date de TAC, la tâche de Liage intègre, en plus de

la possibilité de réponse NIL pour une requête donnée, un regroupement des réponses NIL sous forme de clusters représentant des entités uniques. Les requêtes sans correspondance dans la BC sont ainsi également alignées avec une représentation d’entité, même si celle-ci n’est pas identifiée et décrite formellement comme les entrées de la BC, de façon similaire à la tâche de résolution de coréférence. Sans ce clustering, un tel alignement n’est fait que sur une seule entité — NIL, qui représente toute entité hors BC et ne permet donc pas de distinguer les mentions les unes des autres en termes de sens. Pour des traitements ultérieurs, et notamment une augmentation de la

BC, chaque cluster ainsi formé peut se présenter comme une nouvelle entité possible, munie d’une ensemble d’informations, notamment contextuelles, associées à chacune des mentions regroupées en cluster et pouvant assister le processus de création d’une nouvelle entrée. Plusieurs systèmes participant à TAC effectuent ce clustering de façon simple, par correspondance de chaînes : les chaînes de mentions identiques et alignées sur NIL sont regroupées en cluster, par exemple par Taylor Cassidy et al. [TC+10]. Des méthodes de regroupement par paires, hiérarchiques ou par graphes sont rapportées dans [JGD11].

3.3.2 Méthodes d’ordonnancement pour l’alignement

Les différentes propositions méthodologiques formulées autour du problème de l’ordonnancement des candidats pour l’alignement d’une requête de Liage peuvent être étudiées selon la définition donnée à la fonction f, reproduite ici :

f (m) = argmax

e∈Eext

g(m, e) = em

Elle se distinguent selon les deux types d’approche suivants, comme le proposent notamment Ji et al. [Ji+10] et McNamee et al. [McN+10] :

1. Ordonnancement non supervisé Cette première approche, déjà adoptée par les travaux précurseurs à la tâche de Liage de Bunescu et Pasca [BP06] et Cucerzan [Cuc07], consiste à définir la fonction d’ordonnancement f à l’aide d’une fonction de similarité g calculée selon un modèle vectoriel standard :

• La fonction g prend en arguments les représentations contextuelles respectives de m, la mention et de e, le candidat courant, sous forme de modèles vectoriels. Le document- requête noté d et l’article Wikipedia correspondant à e, noté e.art sont ainsi représentés par deux vecteurs vd et ve.art de dimension égale à la taille du vocabulaire — celui du

corpus Wikipedia, réduit au sous-corpus formé par les e.art de chaque e chez Mendes et al. [Men+11b] et Ratinov et al. [Rat+11].

• Chaque élément de v_d et v_e.art est un poids associé au mot d’indice i étant donné d et e.art. Ce poids correspond à la mesure tfidf [BP06 ; Cuc07], modifiée en tficf chez [Men+11a ; Rat+11] (cf. section 2.2) pour une prise en compte du pouvoir discriminant d’un mot donné relativement à un candidat particulier.

• La fonction g est définie comme une mesure de similarité cosinus chez Mendes et al. [Men+11a] ; elle peut être combinée chez Bunescu et Pasca [BP06] à l’apprentissage d’une corrélation entre mots et catégories d’articles Wikipedia, donnant alors lieu à une fonction de score linéaire dont les paramètres sont dérivés de cette corrélation ainsi que de la similarité cosinus.

L’ordonnancement non supervisé est ainsi fondé sur l’usage des contextes de mentions et entités sans étiquetage, à l’exception de la configuration avec fonction linéaire de score de Bunescu et Pasca [BP06], et une fonction de similarité retournant de façon directe un score pour chaque candidat ou intégrée en tant que paramètre d’une fonction de score.

Dans cette approche, le candidat spécial NIL peut donner lieu à différents traitements. Chez Bunescu et Pasca [BP06], dans la configuration vectorielle standard, un seuil minimal de similarité est défini : si aucun candidat n’obtient un score supérieur à ce seuil, NIL est retourné. Dans la configuration étendue aux catégories, la fonction de score intègre un paramètre supplémentaire correspondant à ce seuil, dont le poids est appris avec ceux des autres paramètres utilisés sur le corpus d’entraînement fourni pour l’évaluation.

3. Approche systématique de l’identification d’entités 121 La mesure de similarité employée dans l’approche non supervisée peut intégrer des éléments non uniquement lexicaux et ainsi distinguer le contexte d’un simple sac de mots. Ces éléments, qualifiés de sémantiques notamment par Han et Zhao [HZ10], relèvent de la similarité thématique existant entre les contextes considérés. La distribution des mentions d’entités au sein de chacun d’eux peut également jouer le rôle de contexte : les co-occurrences d’entités sont déterminées à partir du corpus Wikipedia ; dans un document-requête, les différentes mentions, qu’il faut alors repérer à l’aide d’un système de Reconnaissance d’Entités Nommées, peuvent refléter de façon plus ou moins similaire ces co-occurrences par rapport au candidat courant. Ce type d’éléments contextuels est intégré par Han et Zhao dans une mesure de similarité sophistiquée utilisée pour ordonner les candidats.

2. Apprentissage supervisé En termes de classification classique, chaque paire (m, e) peut se voir assigner par un classifieur un label parmi {1, 0}, selon que e est dénotée par m ou non. Ainsi formulé, l’apprentissage supervisé se présente ainsi :

• Soient une mention m et un ensemble de candidats C = {c1, ...cn}et C ⊆ Eext où n est

le nombre de candidats générés par la requête parmi les entrées de la BC ; on peut avoir NIL ∈ C ou NIL /∈ C.

• Pour une paire (m, ci), on définit un vecteur

vi = φ(m, ci) ∈ Rd

où d est le nombre de traits considérés, avec φ(m, ci) =

φ1(m, ci), φ2(m, ci), ..., φd(m, ci)

• Pour une mention m, on calcule ainsi la séquence V = [v₁, ..., vn] de vecteurs de traits,

avec un vecteur par candidat c.

• On cherche à apprendre une fonction h telle que h : M × Eext7→ {0, 1}et h(m, c) =

1 si c = em

0 sinon à l’aide de φ telle que

h(m, c) = hφ

φ(m, c)

• On génère les exemples d’entraînement pour h0 à partir des éléments de V associés à une classe dans {0, 1}, indiquée par les données de référence de la tâche :

h0(vi) =

1 si c = em

0 sinon

• On a donc pour chaque mention un ensemble d’exemples dont un seul est étiqueté avec la classe 1, la classe 0 étant attribuée à tous les autres.

Lors de la prédiction, plusieurs paires pour une même mention m peuvent alors recevoir la classe positive, ce qui contredit l’unicité inhérente de la réponse à apporter au problème de l’alignement, comme le soulignent notamment Zheng et al. [Zhe+10]. Le problème de l’alignement en termes d’ordonnancement peut alors être pris en charge par des méthodes d’apprentissage supervisé adaptées à l’ordonnancement. Ces méthodes, regroupées sous le terme learning to rank, font l’objet d’une présentation extensive par Li [Li11].

Avec une intégration explicite de l’ordonnancement dans l’apprentissage supervisé, le Liage se présente ainsi comme une tâche dont les objets sont, pour chaque cas sujet à une prédiction, une mention et un ensemble de candidats. Les paires formées par la mention et chacun de ces candidats sont manipulés sous la forme d’une liste dont il s’agit de retourner l’élément placé au premier rang à la suite de l’ordonnancement de cette liste, comme l’exprime la fonction

f (m) = argmax

e∈Eext

g(m, e) = em

introduite précédemment. Trois types de méthodes sont envisageables pour l’adaptation de la classification à l’ordonnancement :

Point-à-point (pointwise) Pour chaque instance d’un problème donné, un classifieur stochas-

tique binaire retourne un nombre réel dont la classe prédite, positive ou négative, peut être dérivée. Ce nombre réel consiste ainsi en un score d’appartenance à une classe assigné à l’instance. L’apprentissage de l’ordonnancement selon la méthode point à point considère ce score indépendamment de la notion de classe et l’emploie pour définir un ordre sur un ensemble d’instances. Dans le cas du Liage et de paires (m, c) pour une même mention, les candidats sont alors ordonnés en fonction de ce score. Un exemple atomique fourni à l’algorithme d’apprentissage consiste dans ce cas en un vecteur de traits représentant une paire (m, c). Il y a donc autant d’exemples d’apprentissage par mention que de candidats à l’alignement, un seul de ces exemples étant étiquetés avec le label de classe positive. Lors de la prédiction, chaque paire reçoit un score attribué par le classifieur et l’alignement est réalisé par regroupement et ordonnancement des paires pour une même mention m.

Par paires (pairwise) L’ordonnancement par paires considère pour une mention m et ses can-

didats c tout ou partie des paires (m, c1), (m, c2)

, impliquant deux candidats distincts. Pour chacune de ces paires, un classifieur prédit une classe, positive si (m, c1)est jugé plus

probable que (m, c2), 0 sinon. À partir de ces décisions locales, on construit un ordre total

sur l’ensemble des (m, c).

Par liste (listwise) Cette méthode se distingue davantage de la classification et manipule di-

rectement les exemples d’entraînement sous forme de liste ordonnée. Dans une tâche de Rercherche d’Information, cet ordonnancement correspond au degré de pertinence d’un document parmi un ensemble de documents retournés pour une requête donnée. Dans le cas du Liage, un exemple atomique est constitué de l’ensemble des paires (m, c) pour une mention donnée. L’apprentissage ainsi formulé se distingue cependant de la configuration d’ordonnancement plus usuelle de la Recherche d’information : la paire (m, c) présentant le candidat correct reçoit le label de rang 1, les autres le label de rang 2. L’ordre n’est en effet pas défini sur les candidats non retenus au rang 1, qui sont tous vus comme éga- lement incorrects pour l’alignement, comme le soulignent Zheng et al. [Zhe+10]. Plusieurs algorithmes d’apprentissage tels que ListNet[Cao+07] ou SVMRank[Joa06], sont disponibles pour l’ordonnancement par liste et sont notamment utilisés dans la tâche de Liage par Li et al. [Li+09], Dredze et al. [Dre+10] ou Zheng et al. [Zhe+10].

L’ordonnancement par apprentissage supervisé présente ainsi, pour une requête donnée, un ensemble de paires, chacune correspondant à la mention de la requête et à un de ses candidats. On

Dans le document Identification automatique d'entités pour l'enrichissement de contenus textuels (Page 118-129)