• Aucun résultat trouvé

3.2.1 Alignement de mentions et d’entités

La correspondance à établir entre mention et entité en PBC est formulée comme une tâche d’alignement, par lequel une mention dans un document issu d’un corpus doit être liée à une entité ; celle-ci est identifiée parmi l’ensemble constitué de l’union des entrées de la BC et de l’entité spéciale NIL. Pour résoudre ce problème d’alignement, le Liage considère l’entité dénotée par une mention comme le sens de cette mention. Une mention peut donc avoir plusieurs sens, parmi lesquels peut être déterminé un sens par défaut ; il peut s’agir de l’entité la plus souvent dénotée par une mention donnée, que cette fréquence de dénotation soit définie dans un corpus spéficique ou relativement à la notoriété d’une entité dans l’espace des connaissances générales. La mention Paris dénote et évoque par exemple plus fréquemment la capitale française que l’une des villes homonymes situées aux États-Unis. L’alignement systématique d’une mention sur son sens par défaut est cependant une méthode manifestement insuffisante pour la prise en compte des autres dénotations possibles, qui constituent un des enjeux de la tâche de Liage.

L’approche générale du Liage consiste ainsi à supposer que le sens d’une mention, sous la forme d’une entité, peut être retrouvé par application de l’hypothèse distributionnelle de Harris [Har54], selon laquelle des contextes de mentions et d’entités similaires indiquent un même sens. La tâche de Liage intègre donc à la BC un ensemble informatif pour chaque entité, lui tenant lieu de contexte ; pour les mentions, ce contexte est constitué par le document d’oc- currence lui-même. La recherche de l’alignement est ainsi vue comme celle de la maximisation d’une proximité sémantique au travers des entités de la BC pour une mention donnée, fondée sur leurs contextes respectifs. Autrement dit, les entités de la BC peuvent être ordonnées selon leur degré de proximité avec la mention considérée. L’entité spéciale NIL doit être ajoutée à l’ensemble des entités de la BC afin que l’alignement ait un résultat dans tous les cas.

L’alignement peut être formalisé de la façon suivante : Soient

• m ∈ M une mention à lier dans un document d issu d’un corpus D • em l’entité liée à m par le système

• E l’ensemble des entités constituant des entrées de la BC

3. Approche systématique de l’identification d’entités 115 • eout l’entité spéciale NIL

on a

• E = {e1, ..., en} t.q. n = |E|

• Eext= E ∪ {eout}

• em ∈ Eext

On définit la fonction d’alignement f :

f : M 7→ Eext

comme

f (m) = argmax

e∈Eext

g(m, e) = em

où g est une fonction de quantification de la proximité entre une mention m et une entité e, représentées par leurs sens respectifs, eux-mêmes dérivés d’une représentation des contextes correspondants. Les modalités de cette dérivation constituent le focus principal des variations méthodologiques auxquelles la tâche de Liage donne lieu. Le traitement du cas NIL relève éga- lement de cette approche en termes de proximité sémantique, en tant qu’il peut être déterminé par le degré ou l’absence de cette proximité. La fonction de quantification g peut par ailleurs être vue comme une fonction de score des entités e ∈ E, dont la fonction f utilise le résultat afin de déterminer em.

On a ainsi, pour une mention m à lier :

• pour tout e ∈ E, un score sm de e tel que sm(e) = g(m, e) • d’où f(m) = argmaxe∈Eext sm(e)

3.2.2 Fonctionnement de la tâche

La tâche de PBC est configurée dans le cadre de TAC selon une orientation propre à l’évaluation et non à la réalité d’une application concrète. Le Liage est à réaliser avec les paramètres suivants :

Un ensemble de requêtes est défini. Chaque requête consiste en un document muni d’un identifiant et d’une mention d’entité dans ce document ; il n’y a donc qu’une mention à ali- gner par document. Le corpus fourni aux participants, élaboré par le LDC34[Sim+10] à partir

des données utilisées par ACE, est constitué d’articles journalistiques (environ 1,3 million), de documents issus du Web (environ 500 000) et de quelques centaines transcriptions de documents audio35. Ces documents sont datés de 2007 et 2008. La sélection des mentions

pour les requêtes d’évaluation correspond à des critères de variation (mentions d’entités présentant un nombre relativement élevé de variantes), de « confusabilité » [Sim+10] (men- tions pouvant référer à un nombre relativement élevé d’entités) et de couverture (nombre relativement élevé de mentions référant à des entités absentes de la BC). L’édition de 2009 présente 3904 requêtes (372 noms de personnes, 1 697 noms d’organisations et 160 noms d’entités géopolitiques) ; les éditions de 2010 et 2011 comptent 2250 requêtes (750 noms de personnes, 750 noms d’organisations et 750 noms d’entités géopolitiques).

34. http://www.ldc.upenn.edu/

35. Ces données quantitatives sont valables pour les éditions de TAC-KBP de 2010 et 2011. L’édition de 2009 présente environ 1,3 million de documents en majorité journalistiques.

• Une BC également élaborée par le LDC est constituée à partir de l’édition en anglaise de Wikipedia datée d’octobre 2008. Les entités formant les entrées de la BC correspondent aux articles de Wikipedia disposant d’une infobox (cf. section 1.3) correctement formée et dont le type convient pour la tâche [Sim+10]. Cette sélection conduit à la représentation d’environ 818 000 entités, pour lesquelles la BC renseigne :

un type parmi person, organization et gpe (pour geopolitical entity, entité géopolitique),

dérivé du type d’infobox de l’article Wikipedia correspondant ;

le titre de l’article correspondant ;

l’ensemble des faits dérivés de l’infobox correspondante (ensemble d’attributs et de

valeurs associées) ;

le texte complet de l’article correspondant ; un identifiant unique interne à la BC.

• Pour chaque requête, les systèmes participant doivent retourner l’identifiant de l’entité liée à la mention considérée, ou NIL.

• L’édition de 2011 introduit une tâche de clustering des réponses NIL, chaque cluster devant représenter une entité unique.

3.2.3 Évaluation

Les éditions de 2009 et 2010 utilisent la métrique de l’exactitude (accuracy), calculée à partir du nombre de mentions correctement alignées divisé par le nombre total de requêtes. Cette métrique est désignée par le terme micro-averaged accuracy [MD09 ; Dre+10], et donne à chaque requête un poids égal. Une seconde mesure d’exactitude est également calculée après un regroupement des mentions par entité, et correspond au nombre d’entités correctement liées à leurs mentions sur le nombre total d’entités cibles des alignements. Elle est désignée par le terme macro-averaged

accuracy.

L’édition de 2011 introduit la mesure B-Cubed+ ou B3+, version modifiée de B-Cubed [BB98]

destinée à l’évaluation du clustering dans la tâche de résolution de coréférence. Cette nouvelle métrique met ainsi en relation le problème de l’alignement avec celui de la coréférence : les mentions à lier ne sont plus considérées indépendamment les unes des autres mais en tant qu’elles forment des clusters correspondant à des entités uniques.

Ces métriques se distinguent de la précision et du rappel adoptés en Reconnaissance d’Enti- tés Nommées, dans la mesure où les mentions d’entités sont fournies à la tâche de Liage et ne sont donc pas concernées par un processus de reconnaissance au sein des données textuelles. On pourra observer dans la suite que certains systèmes accomplissent néanmoins une étape de reconnaissance des mentions sur l’ensemble du document afin d’augmenter la requête, qui n’est constituée que d’une mention par document d’après la définition de la tâche ; ces systèmes s’ap- puient sur ces mentions supplémentaires comme éléments de contextualisation pour l’alignement de la requête.

L’approche générale définie pour le Liage donne lieu à une décomposition méthodologique à partir de laquelle diverses propositions de systèmes ont été faites, dans le cadre de la tâche de PBC de TAC mais également dans des présentations de travaux à l’occasion des principales conférences internationales dédiées au TAL, telles que ceux de Dredze et al. [Dre+10]. On peut citer le cas particulier de Mendes et al. [Men+11b], dont le système Spotlight, présenté précédemment dans le cadre de l’AS, a été soumis par ses auteurs à l’évaluation du Liage proposée par TAC sans adaptation spécifique, à l’exception d’une mise en correspondance entre les instances de DBpedia

3. Approche systématique de l’identification d’entités 117 et des entrées de la BC. Ce passage de l’AS au Liage témoigne d’une parenté forte entre ces deux cadres de traitement des entités.

3.3 Méthodologie pour le Liage