Aper¸cu des syst`emes utilis´es pour TAC-KBP

Dans cette section, nous présentons brièvement les approches des systèmes ayant obtenu les meilleurs résultats aux campagnes TAC-KBP 2009 et TAC-KBP 2010.

Le système de l’équipe THU QUANTA [Li et al., 2009a] a été développé pour participer à plusieurs tâches de la campagne TAC-KBP 2009 et en particulier celle de slot filling. Concernant l’apprentissage des relations le système repose sur des patrons lexico-syntaxiques. La démarche utilisée pour générer les patrons est très proche de notre approche : (i) les phrases exemples sont collectées en injectant des paires d’entités dans le corpus TAC-KBP pour chaque type de relation ; (ii) les valeurs des entités cibles et sources dans les phrases exemples sont remplacées par des balises («<source>, <target>») ; (iii) une analyse morpho-syntaxique est effectuée sur les phrases exemples et les mots du contexte entre les entités sont remplacés par leur catégorie morpho-syntaxique ; (iv) enfin les n phrases exemples les plus fréquentes sont conservées afin servir de patrons pour le type de relation concerné. À la différence de notre approche, [Li et al., 2009a] n’utilise pas de processus de généralisation entre les phrases exemples.

Pour ce qui est de la recherche de documents, les auteurs considèrent les 700 premiers documents renvoyés par un moteur de recherche. Par la suite, une chaˆıne de traitement linguistique (découpage en phrase et étiquetage des catégories morpho-syntaxiques) est appliquée à chacun de ces documents. Dans

notre cas, l’ensemble des pr´e-traitements linguistiques sont appliqu´es sur l’ensemble du corpus.

Concernant l’extraction des relations, le système est fondé sur une démarche en deux phases, premièrement l’application des patrons et deuxièmement la validation des entités cibles extraites. Les entités cibles sont repérées en appliquant des expressions régulières, qui sont soit dérivées des patrons de relations, soit des expressions spécifiques (cas des nombres et des dates). La sélection des en- tités cibles se fait sur un critère de redondance : les réponses les plus fréquentes sont retenues. La validation des entités cibles vise à vérifier que celles-ci sont incluses dans des listes fermées de valeurs. Par exemple, pour le champ per :al- ternate names la liste est constituée à partir des liens de redirection issus de Wikipedia.

Selon la description ci-dessus, le système [Li et al., 2009a] est assez similaire à notre approche. Néanmoins les auteurs l’ont complété en ajoutant une étape permettant d’acquérir, a posteriori, des entités cibles. L’idée générale de cette étape est de rechercher des entités cibles dans un autre corpus que celui de la campagne (en l’occurrence des articles de Wikipedia) et de les ajouter aux en- tités cibles déjà extraites. Afin de trouver ces entités cibles, deux cas de figure sont possibles : l’entité cible recherchée fait l’objet d’un article Wikipédia (elle forme le titre de l’article) ou l’entité cible recherchée se trouve dans un article Wi- kipedia. Dans le second cas, des patrons de relations sont appliquées aux articles Wikipedia afin de retrouver les entités cibles potentielles. Dans les deux cas, il faut s’assurer que ces entités cibles supplémentaires sont bien mentionnées dans un document du corpus initial afin qu’elles soient pertinentes. Si c’est le cas, les entités cibles supplémentaires viennent se rajouter aux autres entités. Ce processus de validation de réponses est repris par d’autres participants dans TAC-KBP 2010, à l’instar de [Chen et al., 2010b; Lehmann et al., 2010]. La distinction est que des bases de connaissances dérivées de Wikipedia sont utilisées au lieu de la version originelle, [Lehmann et al., 2010] se servent de DBpedia1

et [Chen et al., 2010b] se servent de Freebase2

[Bollacker et al., 2007].

Le système de l’équipe Cortex [Chada et al., 2010] a été évalué seulement sur la

http://dbpedia.org/About

tâche Slot Filling. Ce système est en fait composé de trois systèmes indépendants bien que très liés les uns aux autres : (i) HERBE (Heuristic Evidence-and- Resource-Based Extraction) est responsable des traitements linguistiques de base (détection des entités nommées, découpage en phrases/paragraphes, normalisa- tion, etc.) ; (ii) Summon System s’occupe des analyses syntaxiques/sémantiques et de la résolution des anaphores ; (iii) Noun Tree est chargé de représenter les relations sémantiques entre les entités nommées sous forme de graphes hiérarchiques. Plus précisément, les relations entre les entités du graphe sont dirigées, le graphe est acyclique et les entités peuvent être connectés à plusieurs parents (ce qui explique le nom d’arbre). Le système Noun Tree se sert des sorties des deux autres systèmes pour construire une représentation globale cohérente1

de toutes les connaissances dans les textes à partir des relations collectées. Il est important de noter que dans le cadre de la campagne TAC-KBP 2010, un corpus de plus de 3 millions de documents (articles de presses et blogs) à été manuellement afin de construire l’ensemble de règles (qui sont appliquées au système Noun Tree) permettant d’extraire les relations spécifiques à la campagne.

Au niveau des pré-traitements linguistiques, ils sont effectués en amont de la phase d’extraction de relations et sur l’ensemble des documents du corpus. Globa- lement, ces traitements sont effectués en appliquant les trois systèmes précédents auxquels on rajoute une phase d’indexation de toutes les entités et de leurs formes alternatives. L’indexation ayant pour but de retrouver les documents mentionnant une entité donnée.

A l’opposé de notre système et de celui de [Li et al., 2009a], le système de l’équipe Cortex n’utilise pas de patrons lexico-syntaxiques pour extraire les relations. À la place, il extrait les relations en vérifiant qu’un certain nombre de règles (contraintes) sémantiques sont applicables sur la représentation sous forme de graphe d’un document. Ces règles viennent s’ajouter aux relations syntaxiques et sémantiques déjà détectées par le Summon System. Précisément, ces règles2

cor- respondent à des sous-arbres dont on cherche à vérifier la présence dans le Noun Tree.

Avant d’établir une nouvelle relation entre deux entités le système vérifie qu’il n’y ait pas d’incompatibilités avec les relations déjà présentes dans le graphe.

Par rapport au système de l’équipe Thu Quanta celui de l’équipe Cortex ne se sert ni d’étape de validation des réponses, ni d’étape d’acquisition de réponse supplémentaire. Pourtant le second obtient de bien meilleurs résultats1

sur les- quels nous reviendrons dans la section suivante. Une des raisons est que l’approche de l’équipe Thu Quanta ne semble utiliser aucun mécanisme permettant d’extraire des relations inter-phrastiques (résolution de coréférence, etc.).

Dans le document Approches supervisées et faiblement supervisées pour l’extraction d’événements et le peuplement de bases de connaissances (Page 148-151)