• Aucun résultat trouvé

La tˆache KBP de la campagne d’´evaluation TAC a pour objet la d´ecouverte d’informations concernant des entit´es nomm´ees `a partir d’un corpus de taille importante (plus d’un million de documents), pour int´egrer ces informations dans une base de connaissance existante (KB). Cette KB est d´eriv´ee de l’encyclop´edie en ligne Wikipedia. La campagne concerne principalement la langue anglaise1 et n’a pas, pour le moment, d’´equivalent en langue fran¸caise. `A ce jour, trois ´editions de la campagne ont ´et´e organis´ees entre 2009 et 2011 [TAC-KBP, 2009, 2010, 2011].

5.5.1

TAC-KBP 2009 – 2010

Durant les deux premi`eres ´editions de la campagne KBP, deux tˆaches ´etaient propos´ees aux participants.

La premi`ere tˆache, appel´ee entity linking, aborde une limitation des syst`emes classiques d’extraction d’information concernant l’ambigu¨ıt´e sur les entit´es nom- m´ees. Plus concr`etement, il s’agit pour un syst`eme, lorsqu’il reconnaˆıt un nom de personne comme «Michael Jordan», de d´eterminer s’il fait r´ef´erence au joueur de basket ou s’il fait r´ef´erence au chercheur en intelligence artificielle du mˆeme nom2

. Ainsi, cette tˆache est dans le domaine de l’identification de la cor´ef´erence entre entit´es, avec la mise en correspondance d’une entit´e dans un texte avec une des entit´es possibles dans une base de connaissances : la KB est compos´ee d’un

1

TAC-KBP 2011 propose des tˆaches translingues (anglais-chinois).

2

ensemble d’entit´es ayant chacune un identifiant unique et d’autres informations associ´ees (issues des infobox Wikipedia). Pour cette tˆache, les requˆetes sont com- pos´ees d’une valeur d’entit´e et d’un document qui accompagne l’entit´e. Il s’agit alors de d´eterminer, pour la valeur d’entit´e donn´ee, l’identifiant qui lui correspond dans la KB. S’il n’y en a pas, une r´eponse NIL doit ˆetre renvoy´ee. Notons qu’il existe un autre type d’ambigu¨ıt´e sur les entit´es nomm´ees qui n’est pas directe- ment abord´e dans la campagne : l’ambigu¨ıt´e sur la d´etection du type d’entit´e. Par exemple, «Obama» peut ˆetre un nom de personne ou un nom de lieu (une ville du Japon). Ces probl´ematiques de d´esambigu¨ısation de type rel`event plus de la reconnaissance des entit´es nomm´ees. Nous n’avons pas trait´e ces probl`emes de d´esambigu¨ısation des entit´es nomm´ees dans nos travaux.

La deuxi`eme tˆache, appel´ee Slot Filling, aborde la probl´ematique qui nous int´eresse, `a savoir l’extraction de relations entre les entit´es nomm´ees. Il s’agit pour un syst`eme d’apprendre `a reconnaˆıtre un ensemble de relations `a partir d’un corpus de documents. L’objectif ´etant de compl´eter une KB, les relations qui doivent ˆetre apprises sont d´efinies en fonction de la KB : chaque champ (ou slot) de la KB est li´e `a un type de relation. De plus, pour cette tˆache, les requˆetes sont compos´ees d’une valeur d’entit´e (et son type), d’un identifiant dans la KB, et d’une liste de champs `a ignorer : il s’agit des champs d´ej`a renseign´es dans la KB et donc qu’il ne faut pas traiter. Notons que, selon les champs, une seule ou plusieurs r´eponses sont attendues : une date de naissance prend par exemple une seule valeur, alors que des lieux de r´esidences peuvent ˆetre multiples. Si le syst`eme n’est pas capable de trouver une r´eponse dans le corpus, il doit renvoyer une r´eponse NIL. Enfin, pour chacune des relations trouv´ees, le syst`eme doit retourner un identifiant correspondant au document dans lequel la relation a ´et´e retrouv´ee.

Au cours des deux ´editions 2009 et 2010 de TAC-KBP la description de la tˆache de slot filling qui nous concerne est rest´ee inchang´ee. En revanche on peut relever quelques distinctions significatives sur quelques points :

Type d’entit´es `a traiter : dans TAC-KBP 2009 il est question d’extraire des relations concernant trois types d’entit´es nomm´ees g´en´eriques PERSONNE,

ORGANISATION, et ENTIT´E-G´EO-POLITIQUE. Dans TAC-KBP 2010

corpus contiennent tr`es peu d’informations utiles pour l’apprentissage des relations concernant les champs associ´es aux entit´es g´eo-politiques (par exemple devise d’un ´etat). De plus, un champ comme celui de la popu- lation d’une entit´e g´eo-politique est tr`es souvent mis `a jour dans des bases de connaissances existantes. Malgr´e ce changement, on peut relever que le nombre de relations `a extraire est rest´e constant sur les deux ´editions (42 relations) : pour TAC-KBP 2010, les relations impliquant des noms de lieux ont ´et´e dissoci´ees pour ˆetre plus pr´ecis, par exemple la relations PER :place of birth est devenue PER :country of birth, PER :city of birth, PER :stateOrProvince of birth. La liste exhaustive des diff´erents champs dans les campagnes TAC-KBP 2009 et 2010 est pr´esent´ee dans le tableau2

M´etrique d’´evaluation : dans TAC-KBP 2009, les performances des syst`emes ´etaient ´evalu´ees en fonction de la multiplicit´e des r´eponses attendues (une m´etrique pour les champs mono-valu´es et une autre pour les champs multi- valu´es), puis les r´esultats ´etaient combin´es. De plus, les r´esultats ´etaient fortement influenc´es par les r´eponses NIL induites par les requˆetes ne trou- vant pas de r´eponses dans le corpus : un syst`eme renvoyant uniquement la r´eponse NIL obtiendrait une r´eponse correcte sur 80 % des requˆetes. En cons´equence, pour TAC-KBP 2010, la m´etrique a ´et´e chang´ee afin d’´evaluer davantage la pertinence des r´eponses non-NIL renvoy´ees par les syst`emes. Corpus : dans TAC-KBP 2009, le corpus utilis´e est constitu´e en grande partie

d’articles de presses (environ 1 million de documents) alors que celui de TAC-KBP 2010 int`egre, en plus du corpus initial, une part significative de documents issus du web (blogs, etc.) (plus de 300 000).

Adaptation des syst`emes : cette probl´ematique est r´ecurrente en mati`ere d’ex- traction d’information. Ainsi, TAC-KBP 2010 introduit la tˆache «Surprise slot-filling» dont l’objet est de mesurer le temps et la quantit´e d’efforts n´ecessaires pour le param´etrage des syst`emes `a de nouvelles relations. Cette tˆache permet d’avoir un aper¸cu des performances globales d’un syst`eme qui serait tr`es peu optimis´e sur des relations nouvelles `a l’inverse de la tˆache principale.

PEUPLEMENT

DE

BASES

DE

CONNAISSANCES

per :place of birth org :number of employees/members gpe :top employees per :country of birth org :number of employees/members per :origin org :members gpe :political parties per :stateorprovince of birth org :members

per :date of death org :member of gpe :established per :city of birth org :member of per :place of death org :subsidiaries gpe :population per :origin org :subsidiaries per :cause of death org :parents gpe :currency per :date of death org :parents per :residences org :founded by per :country of death org :founded by per :schools attended org :founded per :stateorprovince of death org :founded

per :title org :dissolved per :city of death org :dissolved

per :member of org :headquarters per :cause of death org :country of headquarters per :employee of org :shareholders per :countries of residence org :stateorprovince of headquarters per :religion org :website per :stateorprovinces of residence org :city of headquarters

per :spouse per :cities of residence org :shareholders

per :children per :schools attended org :website

per :parents per :title

per :siblings per :member of

per :other family per :employee of

per :charges per :religion

per :spouse per :children per :parents per :siblings per :other family per :charges

Tab.2 – Liste des relations `a extraire pour TAC-KBP 2009-2010

5.5.2

TAC-KBP 2011

La campagne TAC-KBP 2011 est la plus r´ecente des ´evaluations au moment de la r´edaction de ce manuscrit. Dans TAC-KBP 2011, plus singuli`erement la tˆache Slot Filling, deux nouveaux aspects du processus d’extraction sont introduits :

le traitement cross-lingue des donn´ees : il s’agit d’une tˆache exp´erimentale1 similaire `a la tˆache Slot Filling pr´ec´edente, la distinction est au niveau des documents qui peuvent ˆetre en anglais ou en chinois. De plus, les syst`emes doivent renvoyer des r´eponses uniquement en langue anglaise mˆeme si celles- ci sont trouv´ees dans des documents en chinois. Compte tenu de la difficult´e de la tˆache, seuls 8 champs (5 pour les personnes, 3 pour les organisations) sont concern´es au lieu des 42 de la tˆache initiale.

la temporalit´e : les informations concernant les entit´es varient g´en´eralement dans le temps, et sont donc plus ou moins pertinentes en fonction de la fenˆetre de temps dans laquelle on se place. Par exemple lorsque l’on cherche le lieu de r´esidence d’une personne, il semble plus correct de consid´erer le dernier lieu connu mˆeme si les lieux pr´ec´edents ne peuvent ˆetre consid´er´es comme incorrects. Ainsi, le but de cette tˆache est de compl´eter les r´eponses extraites par des informations temporelles (intervalle temporel dans lequel la r´eponse est valide, etc.) Certains champs ´etant invariants dans le temps (date de naissance), un nombre limit´e de champs sont concern´es (lieux de r´esidences, ´epouses, etc).

Notons que la description de la tˆache Slot Filling est identique `a la version («monolingue») pr´ec´edente et que le corpus est identique au corpus pr´ec´edent. De plus, les mˆemes m´etriques d’´evaluations que TAC-KBP 2010 sont utilis´ees pour cette tˆache.

1

5.6

Evaluation de l’approche dans le cadre de´