• Aucun résultat trouvé

Extraction de règles numériques

Dans le document Rule mining in knowledge bases (Page 181-184)

A.10.1 Introduction

Dans toutes nos expériences avec AMIE, nous avons délibérément exclu tous les faits dont les objets ne sont pas des entités mais des valeurs littérales comme des

Relation CWA PCA card2 Pop. Star Class AMIE alma_mater 90% 14% 5% 1% 87% 87% 87% brother 93% 1% — 1% 94% 96% 96% child 70% 1% — 1% 79% 72% 73% country_of_citizenship* 42% 97% 10% 3% 0% 0% 98% director 81% 100% — 3% 94% 89% 100% father 5% 100% 6% 9% 89% 8% 100% mother 3% 100% 3% 10% 67%* 5% 100% place_of_birth 53% 100% 7% 5% 55% 0% 100% place_of_death 89% 35% 1% 2% 81% 81% 96% sex_or_gender 81% 100% 6% 3% 92% 91% 100% spouse 57% 7% — 1% 54% 54% 55%

TABLEA.11 – Mesure F1 pour nos oracles de complétude sur Wikidata

chaînes de caractères ou des nombres. En effet, dans la plupart des cas, ces valeurs sont uniques pour les faits, et l’extraction de règles n’obtient donc que des résultats de faible support. Nous observons néanmoins que certaines règles utilisant ces faits peuvent avoir une grande valeur pour les bases de connaissances. Considérons par exemple la règle

type(x, MarketEcon) ∧ import(x, y) ∧ export(x, z) ∧ cad(x, w) ⇒ w ≈ 1.2×(y − z) Cette règle dit que si x est une économie de marché, son déficit (cad ) est environ 120% de la différence entre le montant de ses exportations et celui de ses importa- tions (exprimé en euros, par exemple). Cette règle est une règle numérique. L’extraction de ce type de règles est particulièrement délicate, car l’espace de recherche devient beaucoup plus grand à cause des arguments numériques : ici le facteur aurait pu être différent, par exemple 1.21 ou 1.3.

Dans ce chapitre, nous faisons le premier pas vers l’extraction de règles numériques en définissant un langage pour écrire ce type de règles. Notre langage est capable d’exprimer tous les types de règles numériques qui ont été étudiées dans la littérature.

A.10.2 Le langage

Contraintes numériques. Une contrainte numérique est un atome de la forme x○φ, où

xest une variable et φ est une expression numérique comme 1.2×(y − z), qui peuvent contenir aussi des variables de la règle.

Notation fonctionnelle. Les relations numériques comme population ou hasHeight ont

dans la plupart de cas un comportement fonctionnel9 dans les bases de connais- sances. Nous proposons en conséquence une notation fonctionnelle pour des règles

numériques, selon laquelle la règle

type(x, MarketEcon) ∧ import(x, y) ∧ export(x, z) ∧ cad(x, w) ⇒ w ≈ 1.2×(y − z) devient

type(x, MarketEcon) ⇒ cad(x) ≈ 1.2×(import(x) − export(x))

Règles prédictives et descriptives. Considérons les règles

gdp(x, y) ∧ natDebt(x, z) ⇒ z = 0.9 × y et

gdp(x, y) ⇒ ∃z ∶ natDebt(x, z) ∧ z = 0.9 × y

La première règle décrit un invariant des données – il s’agit donc d’une règle descriptive – alors que la deuxième fait des prédictions pour la relation natDebt . Elle est donc une règle prédictive. Nous observons que notre règle prédictive n’est pas une clause de Horn, donc nous introduisons l’opérateur d’affectation ∶= pour réécrire les règles prédictives comme des clauses de Horn. Notre exemple devient donc (en utilisant la notation fonctionnelle) :

⇒ natDebt(x) ∶= 0.9 × gdp(x)

A.10.3 Conclusion

Dans ce chapitre, nous avons présenté un langage pour écrire des règles numé- riques. Nous croyons que cette contribution est le premier pas vers une solution com- plète pour l’extraction de règles numériques.

A.11

Conclusion

À travers ce travail, nous avons fait le premier pas vers un web encore plus sé- mantique, en identifiant – de façon automatique – des tendances dans les données. Ces tendances constituent des outils pour rendre les ordinateurs plus proactifs et “in- telligents”. Les règles trouvées par les méthodes que nous avons décrites permettent ainsi aux ordinateurs de prédire des faits et de décrire un certain domaine de connais- sances. Nous avons montré dans ce travail la valeur que ces règles peuvent apporter à de nombreuses tâches liées aux données : par exemple, l’alignement de schémas, la mise en forme canonique de bases de connaissances et la prédiction de complétude. Nous espérons que ce travail pourra motiver d’autres recherches dans ce domaine. En particulier, nous croyons que l’étude de langages de règles plus expressifs est une direction qui mérite d’être explorée plus en détail.

 

   

 

Rule Mining in Knowledge Bases

Luis Galárraga

RESUME : Le développement rapide des techniques d’extraction d’information a

permis de construire de vastes bases de connaissances généralistes. Ces bases de connaissances contiennent des millions de faits portant sur des entités du monde réel, comme des personnes, des lieux, ou des organisations. Ces faits sont accessibles aux ordinateurs, et leur permettent ainsi de “comprendre” le monde réel. Ces bases trouvent donc de nombreuses applications, notamment pour la recherche d’information, le traitement de requêtes, et le raisonnement automatique.

Les nombreuses informations contenues dans les bases de connaissances peuvent également être utilisées pour découvrir des motifs intéressants et fréquents dans les données. Cette tâche, l’extraction de règles d’association, permet de comprendre la structure des données ; les règles ainsi obtenues peuvent être employées pour l’ana- lyse de données, la prédiction, et la maintenance de données, entre autres applications. Cette thèse présente deux contributions principales. En premier lieu, nous propo- sons une nouvelle méthode pour l’extraction de règles d’association dans les bases de connaissances. Cette méthode s’appuie sur un modèle d’extraction qui convient parti- culièrement aux bases de connaissances potentiellement incomplètes, comme celles qui sont extraites à partir des données du Web. En second lieu, nous montrons que l’extraction de règles peut être utilisée sur les bases de connaissances pour effectuer de nombreuses tâches orientées vers les données. Nous étudions notamment la pré- diction de faits, l’alignement de schémas, la mise en forme canonique de bases de connaissances ouvertes, et la prédiction d’annotations de complétude.

MOTS-CLEFS : Extraction de règles, bases de connaissances, RDF

ABSTRACT : The continuous progress of information extraction (IE) techniques

has led to the construction of large general-purpose knowledge bases (KBs). These KBs contain millions of computer-readable facts about real-world entities such as people, organizations and places. KBs are important nowadays because they allow computers to “understand” the real world. They are used in multiple applications in In- formation Retrieval, Query Answering and Automatic Reasoning, among other fields. Furthermore, the plethora of information available in today’s KBs allows for the disco- very of frequent patterns in the data, a task known as rule mining. Such patterns or rules convey useful insights about the data. These rules can be used in several applications ranging from data analytics and prediction to data maintenance tasks.

The contribution of this thesis is twofold : First, it proposes a method to mine rules on KBs. The method relies on a mining model tailored for potentially incomplete web- extracted KBs. Second, the thesis shows the applicability of rule mining in several data- oriented tasks in KBs, namely facts prediction, schema alignment, canonicalization of (open) KBs and prediction of completeness.

Dans le document Rule mining in knowledge bases (Page 181-184)

Documents relatifs