• Aucun résultat trouvé

Extraction d'information basée sur une ontologie pour les besoins du Web Sémantique

N/A
N/A
Protected

Academic year: 2022

Partager "Extraction d'information basée sur une ontologie pour les besoins du Web Sémantique"

Copied!
4
0
0

Texte intégral

(1)

Proceedings Chapter

Reference

Extraction d'information basée sur une ontologie pour les besoins du Web Sémantique

NEBHI, Kamel

Abstract

Dans cet article, nous présentons un système d'extraction d'information pour le français basé sur une ontologie et fondé sur une approche à base de règles. Ce papier détaille le fonctionnement de notre application et présente les premiers résultats obtenus à partir d'un corpus journalistique.

NEBHI, Kamel. Extraction d'information basée sur une ontologie pour les besoins du Web Sémantique. In: Actes des 23es Journées Francophones d'Ingénierie des

Connaissances- IC 2012. 2012.

Available at:

http://archive-ouverte.unige.ch/unige:24082

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

Extraction d’information basée sur une ontologie pour le Web Sémantique

Extraction d’information basée sur une ontologie pour le Web Sémantique

Kamel Nebhi

LABORATOIRE D’ANALYSE ET DETECHNOLOGIE DULANGAGE(LATL) Université de Genève, Suisse

kamel.nebhi@unige.ch

Résumé : Dans cet article, nous présentons un système d’extraction d’information pour le français basé sur une ontologie et fondé sur une approche à base de règles.

Ce papier détaille le fonctionnement de notre application et présente les premiers résultats obtenus à partir d’un corpus journalistique.

Mots-clés: Extraction d’information, Ontologies, Web Sémantique, Linked Data

1 L’EIBO

La réalisation du Web Sémantique (WS) à grande échelle implique l’an- notation généralisée de documents Web à l’aide de bases de connaissances ontologiques. Depuis plusieurs années, de nombreux travaux de recherche démontrent clairement que l’Extraction d’Information (EI) est essentielle à l’automatisation de ce processus (Brewster & Wilks, 2009).

L’ « Extraction d’Information Basée sur les Ontologies » (EIBO) est un sous-domaine de l’EI. Cette approche a été conçue il y a quelques années et a donné lieu à de nombreuses publications (Wimalasuriya & Dou, 2010).

La plupart de ces travaux sont consacrés à des systèmes pour la langue an- glaise. Nous remarquons également qu’ils n’ont pas été intégrés dans le schéma général du WS. Pour résoudre ce problème, nous proposons un système d’EIBO pour le français permettant d’établir une relation entre les entités nommées d’un texte, l’ontologie DBpedia et la banque de données du même nom.

(3)

IC 2012

2 Description du Système et Expérience 2.1 Architecture

Notre système d’EIBO a été créé à partir de la plateforme GATE1. L’application est composée de 3 éléments :

– le pré-traitement linguistique – les dictionnaires

– les grammaires

Le pré-traitement linguistique est constitué des ressources suivantes : to- keniser et délimiteur de phrases. Pour l’étiquetage grammatical, nous uti- lisons l’outil TreeTagger pour le français. Les dictionnaires sont composés d’environ 42000 entrées extraites de Wikipédia et DBpedia. Parmi les res- sources fournies par GATE, il est possible d’utiliser un automate à états finis basé sur le langage JAPE pour « Java Annotation Patterns Engine ».

JAPE permet d’écrire des règles basées sur l’étiquetage grammatical, les dictionnaires ou une chaîne de caractères particulière.

L’exemple de la Figure 1 permet de catégoriser la séquence Liverpool comme une ville en se basant sur les dictionnaires. Le système détermine ensuite la classe, l’instance et lesLinked Datade cette entité nommée :

class : http://dbpedia.org/ontology/City inst : http://dbpedia.org/ontology/#Liverpool linked-data : http://dbpedia.org/data/Liverpool

R u l e : C i t y L o o k u p

( { Lookup . m i n o r T y p e == c i t y } ) : c i t y L a b e l

−−>

: c i t y L a b e l {

S t r i n g c i t y = s t r i n g F o r ( doc , c i t y L a b e l A n n o t s ) ; S t r i n g b a s e U r i = " h t t p : / / d b p e d i a . o r g / "

n e w F e a t u r e s . p u t ( " c l a s s " , b a s e U r i + " o n t o l o g y / C i t y " ) ; n e w F e a t u r e s . p u t ( " i n s t " , b a s e U r i + " o n t o l o g y / # " + c i t y ) ; n e w F e a t u r e s . p u t ( " l i n k e d−d a t a " , b a s e U r i + " d a t a / " + c i t y ) ; }

FIGURE1 – Exemple d’une règle écrite avec JAPE

1. GATE est une plateforme d’ingénierie linguistique développée à l’Université de Sheffield et permettant de construire ou de réutiliser des outils et ressources linguistiques.

(4)

Extraction d’information basée sur une ontologie pour le Web Sémantique

2.2 Expérience

L’évaluation des systèmes d’EIBO nécessite d’introduire des mesures de similarités aux calculs traditionnels pour déterminer les distances on- tologiques entre les termes. Pour l’expérience2, nous avons utilisé la Ba- lanced Distance Metric (BDM) (Maynard et al., 2008). Un corpus d’éva- luation de 40 dépêches du journal Le Monde a été annoté manuellement afin de créer une référence. Nous l’avons ensuite traité automatiquement et comparé les résultats avec la référence. La F-mesure augmentée du sys- tème est de 94%.

PAugm RAugm FAugm

Lieu 0.92 0.96 0.94

Organisation 0.95 0.96 0.95

Personne 0.96 0.93 0.94

Total 0.94 0.95 0.94

FIGURE2 – Evaluation sur le corpusLe Mondede 2012

3 Conclusion

Nous avons présenté un système d’EIBO pour le français intégré dans le schéma général du WS et dont les performances sont très honorables. Dans nos futurs travaux, nous tenterons d’améliorer le système en y intégrant un outil permettant la désambiguïsation des entités nommées.

Références

BREWSTER C. & WILKS Y. (2009). Natural Language Processing as a Foundation of the Semantic Web. Delft, Netherlands : now Publishers Inc.

MAYNARDD., PETERSW. & LIY. (2008). Evaluating evaluation metrics for ontology-based applications : Infinite reflection. InLREC.

WIMALASURIYA D. C. & DOU D. (2010). Ontology-based information extraction : An introduction and a survey of current approaches. J. In- formation Science.

2. Nous repérons 3 types d’entités nommées (Lieu, Organisation, Personne).

Références

Documents relatifs

L’étape de transformation de la terminologie consiste à étudier les labels et les concepts d’un thésaurus pour générer les classes dans une ontologie. Pour cela, deux familles

En respectant la structure de H.C, nous établissons des liaisons entre les termes si : (1) les termes sont encadrés par la même balise bloc (Table 1. Exemple 1), dans ce cas, on

Tous les formats exploitables par un navigateur Web peuvent être utilisés pour réaliser le matériau pédagogique: en effet, l'accès aux systèmes se fait au

There exist many extraction tools that can process web pages and produce structured machine under- standable data (or information) that corresponds with the content of a web page..

Afin que ces annotations puissent être manipulées par les agents logiciels, et partagées avec d’autres apprenants, la sémantique de ces annotations doit être

Fig. those sites with large amounts of data and a rather regular structure. RoadRunner works by comparing the HTML structure of a set of sample pages of the same type, and generates

Pour ajouter plus de flexibilité dans la définition et pour permettre aux auteurs de construire des ressources plus abstraites, nous proposons d’ajouter un nouveau type de

Le troisième chapitre présente notre outil de visualisation d’ontologies Memo Graph, qui se base sur notre guide de bonnes pratiques d’ergonomie et notre approche IKIEV -