• Aucun résultat trouvé

Dans cette section, nous pr´esentons bri`evement les approches des syst`emes ayant obtenu les meilleurs r´esultats aux campagnes TAC-KBP 2009 et TAC-KBP 2010.

Le syst`eme de l’´equipe THU QUANTA [Li et al., 2009a] a ´et´e d´evelopp´e pour participer `a plusieurs tˆaches de la campagne TAC-KBP 2009 et en particulier celle de slot filling. Concernant l’apprentissage des relations le syst`eme repose sur des patrons lexico-syntaxiques. La d´emarche utilis´ee pour g´en´erer les patrons est tr`es proche de notre approche : (i) les phrases exemples sont collect´ees en injectant des paires d’entit´es dans le corpus TAC-KBP pour chaque type de relation ; (ii) les valeurs des entit´es cibles et sources dans les phrases exemples sont remplac´ees par des balises («<source>, <target>») ; (iii) une analyse morpho-syntaxique est effectu´ee sur les phrases exemples et les mots du contexte entre les entit´es sont remplac´es par leur cat´egorie morpho-syntaxique ; (iv) enfin les n phrases exemples les plus fr´equentes sont conserv´ees afin servir de patrons pour le type de relation concern´e. `A la diff´erence de notre approche, [Li et al., 2009a] n’utilise pas de processus de g´en´eralisation entre les phrases exemples.

Pour ce qui est de la recherche de documents, les auteurs consid`erent les 700 premiers documents renvoy´es par un moteur de recherche. Par la suite, une chaˆıne de traitement linguistique (d´ecoupage en phrase et ´etiquetage des cat´egories morpho-syntaxiques) est appliqu´ee `a chacun de ces documents. Dans

notre cas, l’ensemble des pr´e-traitements linguistiques sont appliqu´es sur l’en- semble du corpus.

Concernant l’extraction des relations, le syst`eme est fond´e sur une d´emarche en deux phases, premi`erement l’application des patrons et deuxi`emement la vali- dation des entit´es cibles extraites. Les entit´es cibles sont rep´er´ees en appliquant des expressions r´eguli`eres, qui sont soit d´eriv´ees des patrons de relations, soit des expressions sp´ecifiques (cas des nombres et des dates). La s´election des en- tit´es cibles se fait sur un crit`ere de redondance : les r´eponses les plus fr´equentes sont retenues. La validation des entit´es cibles vise `a v´erifier que celles-ci sont incluses dans des listes ferm´ees de valeurs. Par exemple, pour le champ per :al- ternate names la liste est constitu´ee `a partir des liens de redirection issus de Wikipedia.

Selon la description ci-dessus, le syst`eme [Li et al., 2009a] est assez similaire `a notre approche. N´eanmoins les auteurs l’ont compl´et´e en ajoutant une ´etape permettant d’acqu´erir, a posteriori, des entit´es cibles. L’id´ee g´en´erale de cette ´etape est de rechercher des entit´es cibles dans un autre corpus que celui de la campagne (en l’occurrence des articles de Wikipedia) et de les ajouter aux en- tit´es cibles d´ej`a extraites. Afin de trouver ces entit´es cibles, deux cas de figure sont possibles : l’entit´e cible recherch´ee fait l’objet d’un article Wikip´edia (elle forme le titre de l’article) ou l’entit´e cible recherch´ee se trouve dans un article Wi- kipedia. Dans le second cas, des patrons de relations sont appliqu´ees aux articles Wikipedia afin de retrouver les entit´es cibles potentielles. Dans les deux cas, il faut s’assurer que ces entit´es cibles suppl´ementaires sont bien mentionn´ees dans un document du corpus initial afin qu’elles soient pertinentes. Si c’est le cas, les entit´es cibles suppl´ementaires viennent se rajouter aux autres entit´es. Ce proces- sus de validation de r´eponses est repris par d’autres participants dans TAC-KBP 2010, `a l’instar de [Chen et al., 2010b; Lehmann et al., 2010]. La distinction est que des bases de connaissances d´eriv´ees de Wikipedia sont utilis´ees au lieu de la version originelle, [Lehmann et al., 2010] se servent de DBpedia1

et [Chen et al., 2010b] se servent de Freebase2

[Bollacker et al., 2007].

Le syst`eme de l’´equipe Cortex [Chada et al., 2010] a ´et´e ´evalu´e seulement sur la

1

http://dbpedia.org/About

2

tˆache Slot Filling. Ce syst`eme est en fait compos´e de trois syst`emes ind´ependants bien que tr`es li´es les uns aux autres : (i) HERBE (Heuristic Evidence-and- Resource-Based Extraction) est responsable des traitements linguistiques de base (d´etection des entit´es nomm´ees, d´ecoupage en phrases/paragraphes, normalisa- tion, etc.) ; (ii) Summon System s’occupe des analyses syntaxiques/s´emantiques et de la r´esolution des anaphores ; (iii) Noun Tree est charg´e de repr´esenter les rela- tions s´emantiques entre les entit´es nomm´ees sous forme de graphes hi´erarchiques. Plus pr´ecis´ement, les relations entre les entit´es du graphe sont dirig´ees, le graphe est acyclique et les entit´es peuvent ˆetre connect´es `a plusieurs parents (ce qui explique le nom d’arbre). Le syst`eme Noun Tree se sert des sorties des deux autres syst`emes pour construire une repr´esentation globale coh´erente1

de toutes les connaissances dans les textes `a partir des relations collect´ees. Il est important de noter que dans le cadre de la campagne TAC-KBP 2010, un corpus de plus de 3 millions de documents (articles de presses et blogs) `a ´et´e manuellement afin de construire l’ensemble de r`egles (qui sont appliqu´ees au syst`eme Noun Tree) permettant d’extraire les relations sp´ecifiques `a la campagne.

Au niveau des pr´e-traitements linguistiques, ils sont effectu´es en amont de la phase d’extraction de relations et sur l’ensemble des documents du corpus. Globa- lement, ces traitements sont effectu´es en appliquant les trois syst`emes pr´ec´edents auxquels on rajoute une phase d’indexation de toutes les entit´es et de leurs formes alternatives. L’indexation ayant pour but de retrouver les documents mentionnant une entit´e donn´ee.

`

A l’oppos´e de notre syst`eme et de celui de [Li et al., 2009a], le syst`eme de l’´equipe Cortex n’utilise pas de patrons lexico-syntaxiques pour extraire les re- lations. `A la place, il extrait les relations en v´erifiant qu’un certain nombre de r`egles (contraintes) s´emantiques sont applicables sur la repr´esentation sous forme de graphe d’un document. Ces r`egles viennent s’ajouter aux relations syntaxiques et s´emantiques d´ej`a d´etect´ees par le Summon System. Pr´ecis´ement, ces r`egles2

cor- respondent `a des sous-arbres dont on cherche `a v´erifier la pr´esence dans le Noun Tree.

1

Avant d’´etablir une nouvelle relation entre deux entit´es le syst`eme v´erifie qu’il n’y ait pas d’incompatibilit´es avec les relations d´ej`a pr´esentes dans le graphe.

2

Par rapport au syst`eme de l’´equipe Thu Quanta celui de l’´equipe Cortex ne se sert ni d’´etape de validation des r´eponses, ni d’´etape d’acquisition de r´eponse suppl´ementaire. Pourtant le second obtient de bien meilleurs r´esultats1

sur les- quels nous reviendrons dans la section suivante. Une des raisons est que l’approche de l’´equipe Thu Quanta ne semble utiliser aucun m´ecanisme permettant d’extraire des relations inter-phrastiques (r´esolution de cor´ef´erence, etc.).