• Aucun résultat trouvé

1.3 Description des domaines étudiés et concepts manipulés

1.3.3 Enrichissement des bases de connaissances

Les approches les plus reconnues dans le domaine de l’enrichissement automatique de bases de connaissances font référence à des bases très répandues en Web séman- tique : YAGO(SUCHANEK, KASNECIet WEIKUM,2007), DBPEDIA(AUERet al.,2007)

12 Chapitre 1. Introduction

FIGURE1.8 – Schématisation graphique d’une base de connaissances. La T-Box est représentée comme une taxonomie de concepts et la A-Box contient les informations et relations liées aux instances de ces concepts. On remarque la propriété de transitivité de la relation

est_un/sous_classe_de. > Personne SportifCélèbre Sportif Sport

Pierre-Antoine Tennis Badminton

150 T-Box A-Box sous_classe_de sous_classe_de est_un est_un pratique nbVictoires est_un sous_classe_de sous_classe_de

de connaissances, appelé en anglais knowledge base population ou ontology population (DRUMONDet GIRARDI,2008), a été popularisé en 2009 avec la Text Analysis Confe- rence (MCNAMEEet DANG,2009). Lors de cet événement, trois tâches ont été définies à partir de l’analyse de textes non structurés :

— Slot filling : l’objectif de cette tâche est de compléter toutes les informations connues étant donnée une entité. Un exemple classique est la récupération des informations factuelles à propos d’une personne, d’un lieu ou d’une orga- nisation, e.g. étant donnée l’entité Barack Obama recueillir à partir d’un corpus de textes : son lieu de naissance, sa date d’anniversaire, son épouse, etc. Ainsi, cette tâche exploite les méthodes d’extraction d’information et plus précisé- ment d’extraction de relations et d’événements.

— Entity linking : une grande partie de la complexité du langage naturel réside dans son ambiguïté e.g. Python se réfère t-il au langage de programmation ou au serpent. L’entity linking a pour but de résoudre la polysémie des termes en réalisant une correspondance avec les concepts d’une ontologie. Cette tâche exploite les méthodes mises au point pour la tâche de désambiguïsation. — Cold start knowledge base population : cette tâche démarre avec un schéma onto-

logique initial décrivant les types d’entités et les relations qui vont composer la base de connaissances. Initialement vide, les méthodes proposées doivent

1.3. Description des domaines étudiés et concepts manipulés 13

alors extraire les entités et les relations d’intérêt à partir de documents tex- tuels pour constituer la base de connaissances4.

Le slot filling et l’entity linking sont des composants clés de nombreux modèles d’en- richissement. Ils exploitent les techniques du traitement automatique des langues pour convertir des données textuelles en informations exploitables, étapes indispen- sables aux méthodes automatiques exploitant les textes non structurés. Toutefois, toutes les approches d’enrichissement n’exploitent pas nécessairement des textes non structurés. DONG et al., 2014 proposent une classification des méthodologies

en fonction du format de données exploité et de leur mode de fonctionnement. La figure1.9résume cette classification sous la forme d’un arbre de décision et propose différents exemples de systèmes.

FIGURE1.9 – Classification des représentations de la connaissance en fonction de leur construction, des données exploitées et de l’utilisa-

tion d’un schéma ontologique initial. Construction Wordnet UMLS Données DBPEDIA YAGO FREEBASE Schéma NELL PROSPERA ELEMENTARY Knowledge Vault REVERB OLLIE manuelle automatique structurées semi- structurées non-structurées Avec Sans

La figure1.9propose une schématisation des principales caractéristiques définissant la construction d’une représentation de la connaissance en allant de la taxonomie conçue manuellement à la base de faits générée automatiquement. La première ca- ractéristique discriminante est le mode de construction. Une élaboration manuelle est la plus coûteuse car elle fait appel à un groupe d’experts (ou de volontaires), e.g. WordNet (MILLER,1995) ou bien UMLS (BODENREIDER,2004) dans le domaine bio- médical. La seconde caractéristique est le type des données exploitées : DBPEDIA

utilise les données structurées contenues dans les infobox de Wikipedia tandis que

4. https ://tac.nist.gov/2017/KBP/ColdStart/guidelines/ TAC_KBP_2017_ColdStartTaskDescription_1.0.pdf

14 Chapitre 1. Introduction

YAGO combine les noms des catégories de Wikipedia, qualifiés de données semi-

structurées car nécessitant la mise en place de moyens d’extraction, avec la taxono- mie de synsets de WordNet. Enfin, la dernière caractéristique discriminante est l’uti- lisation d’un schéma ontologique initial. Lorsqu’un schéma est présent les entités et les relations sont représentées par un identifiant unique. Dans ces méthodes, nous pouvons citer : NELL(CARLSONet al.,2010), PROSPERA(NAKASHOLE, THEOBALD

et WEIKUM,2011), ELEMENTARY(NIU et al.,2012), FRED(PRESUTTI, DRAICCHIOet GANGEMI,2012) ou bien Knowledge Vault (DONGet al.,2014). Tandis que l’absence

d’un schéma initial implique que les entités et les relations soient normalisées, mais non désambiguïsées. Il est alors possible que la base de faits possède les triplets <Obama, né_à, Hawaï> et <Barack Obama, lieu_de_naissance, Honolulu>. Cette ca- tégorie contient les méthodes exploitant l’extraction d’information en domaine ou- vert telles que REVERB(ETZIONIet al.,2011) et OLLIE(SCHMITZet al.,2012).

Cette classification (cf. figure1.9) ne tient pas compte des méthodologies apparte- nant à l’ontology learning dont les principales étapes sont décrites dans le tableau 1.4. Ces méthodes sont orientées sur la construction automatique d’ontologies à par- tir de textes non-structurés. Ainsi, elles prennent en compte l’extraction des termes d’un domaine et les relations entre ces concepts, voire la génération d’axiomes ré- gissant les concepts et les rôles de l’ontologie (CIMIANOet VÖLKER,2005; VÖLKER,

HITZLERet CIMIANO,2007; WUet al.,2012).

TABLEAU 1.4 – Représentation des étapes de l’ontology learning ré- adaptée de l’exemple de BUITELAAR, CIMIANOet MAGNINI,2005. Les mots dom et range se réfèrent au type des concepts attendus pour

le sujet (domaine) et l’objet (co-domaine) de la relation.

Étapes Exemples

1 Mots matière, cours, école

2 Synonymes {matière, cours}

3 Concepts Matière

4 Hiérarchie de concepts sous_classe_de(Professeur,Personne) 5 Relations enseigner(dom :Professeur,range :Matière) 6 Règles ∀x, y(enseigner(x, y)→ a_étudié(x, y))

L’ensemble des méthodes citées précédemment s’inscrit dans l’hypothèse d’un monde ouvert. Il est important de souligner l’importance de ce paradigme. En effet, la lec- ture et l’interprétation de la base de connaissances sont conditionnées selon l’hypo- thèse de départ dans laquelle l’interprétation des triplets non-existants est différente (NICKEL et al.,2016). Contrairement à un raisonnement en monde fermé (e.g. dans les bases de données relationnelles) où toute donnée non présente est considérée comme étant fausse, sous l’hypothèse d’un monde ouvert un triplet non-existant est seulement interprété comme inconnu. Ainsi, la relation peut être soit vraie soit fausse. Par exemple, sur la figure1.8, la non-existence d’un lien entre Pierre-Antoine et Badminton ne signifie pas que Pierre-Antoine ne pratique pas le Badminton.

1.3. Description des domaines étudiés et concepts manipulés 15

Documents relatifs