• Aucun résultat trouvé

Ce chapitre a abord´e le probl`eme du rattachement des entit´es aux ´ev´enements, c’est-`a-dire de l’attribution des rˆoles des entit´es vis-`a-vis des ´ev´enements, dans la perspective du remplissage de templates. Nous avons vu que l’essentiel des approches dans ce domaine reposent sur des approches heuristiques exploitant surtout des informations locales. `A l’inverse, nous avons propos´e une approche d’extraction visant `a prendre en compte les informations allant au-del`a de la phrase, en particulier en utilisant les r´esultats d’une segmentation ´ev´enementielle des textes plutˆot que les phrases une `a une. Les exp´erimentations sur l’extraction d’´ev´enements sismiques ont montr´e que ce choix ´etait int´eressant et qu’il s’av´erait particuli`erement pertinent pour des textes d´ecrivant plusieurs ´ev´enements de mˆeme nature sans entraver le traitement de textes mono-´ev´enements (d´ecrivant un seul ´ev´enement).

Dans notre approche, nous avons par ailleurs consid´er´e les templates comme des relations complexes exprimant des relations de degr´e n entre n entit´es. Leur identification `a une ´echelle textuelle s’effectue en deux temps en consid´erant que ces relations complexes peuvent se d´ecomposer en un ensemble de relations bi- naires : le premier temps r´ealise l’identification de ces relations ´el´ementaires tan- dis que le second s´electionne les entit´es jouant un rˆole dans la relation complexe, c’est-`a-dire s´electionne les valeurs des champs du template consid´er´e.

Pour l’identification des relations s´emantiques ´el´ementaires entre les entit´es, plusieurs classifieurs statistiques ont ´et´e test´es en s’appuyant sur diff´erents en- sembles de features. Les r´esultats ont montr´e que l’utilisation de features lexicaux permet d’obtenir une bonne classification des couples d’entit´es. En revanche, ce type de features implique une forte d´ependance des mod`eles par rapport au do- maine et au type de textes consid´er´es. Les r´esultats obtenus ont aussi montr´e que la substitution de features syntaxiques aux features lexicaux entraˆıne certes une l´eg`ere d´egradation des r´esultats mais que cette d´egradation est suffisamment minime par rapport au gain de g´en´eralit´e des mod`eles qui en r´esulte.

`

construire un graphe d’entit´es au sein duquel les entit´es potentiellement perti- nentes sont `a s´electionner. Pour r´ealiser cette s´election, nous avons mis en œuvre et test´e trois types de strat´egies, avec le souci de rendre ce processus le moins d´ependant que possible du domaine. La premi`ere, qui sert aussi de baseline, est purement heuristique et ne repose que sur l’ordre d’apparition des entit´es. La deuxi`eme s’appuie sur les pond´erations des arcs du graphe tandis que la derni`ere exploite la structure du graphe. De plus, nous avons ´egalement propos´e deux m´ethodes pour combiner les sorties des trois strat´egies pr´ec´edentes, l’une inspir´ee du vote majoritaire, l’autre ´etant fond´ee sur une combinaison de strat´egies tenant compte de leurs performances diff´erenci´ees en fonction de chaque rˆole sp´ecifique du template. Les exp´eriences ont montr´e que les meilleurs r´esultats sont obtenus de fa¸con g´en´erale par la combinaison de nos trois strat´egies de base, et plus par- ticuli`erement par la combinaison que l’on peut qualifier d’inform´ee, c’est-`a-dire adaptant la strat´egie `a utiliser en fonction du rˆole `a s´electionner.

Chapitre 5

Peuplement de bases de

connaissances

Dans les deux chapitres pr´ec´edents, nous nous sommes int´eress´es `a un proces- sus de construction de templates appliqu´e `a l’extraction d’information pour les ´ev´enements sismiques. Pour reprendre la terminologie des conf´erences MUC, cette tˆache correspond `a la tˆache de scenario template extraction. Ainsi, les template que nous avons extraits contenaient des relations li´ees `a un domaine particulier et en nombre restreint. Dans une perspective diff´erente, mais compl´ementaire, ce chapitre porte sur l’extraction de relations entre entit´es nomm´ees `a une plus large ´echelle et pour un domaine plus g´en´eral. Par rapport `a la terminologie MUC, la tˆache la plus proche correspond `a celle de template element extrac- tion ou slot filling, dont le but est d’extraire des renseignements (ou informa- tions compl´ementaires) concernant des entit´es nomm´ees. Typiquement, il s’agit d’extraire des propri´et´es caract´eristiques associ´ees `a un type d’entit´e donn´e, par exemple une entit´e de type personne est toujours li´ee `a une date de naissance.

5.1

Introduction

Comme nous l’avons mentionn´e dans le pr´eambule, les templates se rapportent `a des sc´enarios servant `a d´ecrire des ´ev´enements. `A l’inverse, dans ce chapitre, nous nous concentrons sur des templates plus g´en´eraux, qui ne sont plus focalis´es

sur des ´ev´enements mais sur des entit´es : l’id´ee principale est de d´ecrire une entit´e en se servant des relations qu’elle partage avec les autres entit´es. Si l’on peut consid´erer que toutes les relations li´ees `a une mˆeme entit´e constituent une forme de template, la diff´erence r´eside dans le fait que dans le cas des template d’entit´es, une relation est ´etablie avec l’entit´e pour chaque champ, ce qui forme un ensemble de relations binairessouvent, mais pas toujours ind´ependantes, alors que dans le cas des templates d’´ev´enements, les diff´erents champs sont en g´en´eral inter-d´ependants et forment une relation n-aire globale.

Plus g´en´eralement, notre objectif est d’obtenir des informations compl´emen- taires (et ind´ependantes d’un domaine) concernant les entit´es. Notre motivation est de se servir de ces informations compl´ementaires afin de situer un ´ev´enement dans un cadre plus g´en´eral que celui du document qui en fait mention. Pour cela, notre id´ee est d’apporter des connaissances sur chaque entit´e selon son type et ind´ependamment de l’´ev´enement auquel elle appartient. Pour illustra- tion, lorsqu’un ´ev´enement se produit dans un lieu donn´e, il peut ˆetre int´eressant de connaˆıtre le nombre d’habitants associ´e `a ce lieu, ou encore le nom de la capitale lorsqu’il s’agit d’un pays, etc.

Dans l’ensemble, les informations compl´ementaires que nous cherchons `a ex- traire sont des connaissances encyclop´ediques sur les entit´es. Ce type de connais- sances peut se trouver dans des sources d’informations ouvertes, en particulier dans le contexte du Web s´emantique. Un grand nombre d’informations sont par exemple disponibles sous forme semi-structur´ee dans le contexte de l’encyclop´edie collaborative Wikip´edia, sous la forme d’infobox, c’est-`a-dire de tables format´ees qui contiennent des informations factuelles li´ees `a l’entit´e d’int´erˆet de la page. Ces donn´ees semi-structur´ees peuvent ˆetre structur´ees automatiquement sous forme d’une base de donn´ees, comme le montre le projet DBpedia1

[Bizer et al., 2009]. Malheureusement, ces ressources sont parfois incompl`etes : dans Wikipedia, les entit´es populaires sont bien renseign´ees, les autres le sont beaucoup moins. Pour pallier ce probl`eme, une alternative consiste `a utiliser le contenu textuel non structur´e issu des articles de l’encyclop´edie pour enrichir des bases de connais- sances (Knowledge Base, ou KB ) incompl`etes. Ici, nous faisons l’hypoth`ese qu’en- richir une base de connaissances revient `a extraire des relations entre des entit´es

1

nomm´ees : on consid`ere que chacune des entr´ees de la KB d´ecrit une entit´e et par cons´equent, les diff´erents champs de la KB d´efinissent des relations entre cette entit´e et les valeurs de ces champs.

Dans le chapitre 2, nous avons mis l’accent sur les approches d’extraction de relations supervis´ees. N´eanmoins, les relations peuvent ´egalement ˆetre extraites `a partir d’approches non supervis´ees, dont but est d’extraire des relations sans a priori sur les types de relations [Banko and Etzioni, 2008; Shinyama and Sekine, 2006; Wang et al., 2011a; Yan et al., 2009], ou faiblement supervis´ees [Bunescu and Mooney, 2007; Mintz et al., 2009]. Le principe de ces derni`eres est comparable `a celle des approche semi-supervis´ees : il s’agit d’entraˆıner un syst`eme en utilisant un ensemble d’exemples de relations annot´es. Pour les m´ethodes semi-supervis´ees, cet ensemble est obtenu en utilisant un nombre d’exemples restreint dont on est sˆur de la pertinence [Agichtein and Gravano, 2000; Brin, 1999]. `A l’inverse, dans le contexte faiblement supervis´e, ces exemples sont obtenus de fa¸con automatique en exploitant des ressources ext´erieures (KB, corpus non annot´es, etc.) [Mintz et al., 2009; Suchanek et al., 2006]. Par cons´equent l’ensemble d’exemples obtenu est plus important, en revanche il peut contenir des exemples non pertinents. Plus g´en´eralement, cette d´emarche consistant `a constituer un ensemble d’exemples de relations est aussi appel´ee supervision distante [Mintz et al., 2009]. La motivation de ce type d’approches est d’utiliser un ensemble de ressources plutˆot que des annotateurs humains comme source de supervision.

Dans ce chapitre, nous pr´esentons un syst`eme d’extraction d’information `a large ´echelle fond´e sur un apprentissage faiblement supervis´e de patrons d’ex- traction de relations. Ce syst`eme a ´et´e ´evalu´e dans le cadre de la tˆache de peu- plement automatique d’une base de connaissances (Knowledge Base Population – KBP ), au sein de la campagne d’´evaluation TAC (Text Analysis Conference) organis´ee par le NIST National Institute of Standards and Technology. La sec- tion5.2pr´esente l’objet du peuplement des bases de connaissances. La section5.4

aborde l’approche d’extraction de relations que nous proposons pour cette tˆache. La campagne d’´evaluation de r´ef´erence dans le domaine de la population de base de donn´ees est pr´esent´ee en section5.5. Les sections5.6et5.7pr´esentent respecti- vement les r´esultats de l’´evaluation de notre approche sur les donn´ees TAC-KBP 2010 et un aper¸cu d’autres approches utilis´ees pour cette tˆache. Enfin, les sec-

tions 5.8 et 5.9 pr´esentent une discussion sur les r´esultats ainsi que quelques conclusions.