• Aucun résultat trouvé

Apport des ontologies dans la découverte de connaissances

peuvent être générées de deux manières :

en supprimant un terme de la clause,

en remplaçant un littéral par une variable.

On cherche dans cet ensemble de clauses celle qui est vraie pour le plus d'exemples positifs

et le moins d'exemples négatifs. Aleph propose plusieurs méthodes pour explorer cet

ensemble de clauses et les évaluer en fonction de leur couverture des exemples.

4. En fonction des paramètres du programme, une clause est sélectionnée et ajoutée à la

théorie. L'exemple sélectionné à l'étape 1 est retiré de l'ensemble des exemples à

généra-liser. Les autres exemples vériant la clause sélectionnée peuvent également être retirés.

L'algorithme recommence à l'étape 1 pour les exemples restants.

Aleph requiert la dénition de biais d'apprentissage dénissant :

le prédicat à prédire par la théorie, c'est-à-dire le prédicat apparaissant dans la tête de

chaque règle de la théorie,

le type d'argument (variable ou littéral) autorisé dans les prédicats du corps des règles.

Par exemple, on pourra imposer que le second argument du prédicat subClassOf soit

toujours un littéral.

Aleph propose également de nombreux paramètres pour guider la construction d'une

théo-rie. Notamment, la fonction d'évaluation des clauses généralisées peut être modiée. Par

dé-faut, Aleph utilise la diérence du nombre d'exemples positifs vériant la clause avec le nombre

d'exemples négatifs la vériant. Il est également possible de spécier un nombre minium d'exemples

positifs pour qu'une clause soit ajoutée à la théorie, permettant d'exclure les clauses qui ne

dé-crivent qu'un seul ou peu d'exemples.

La généralisation d'une clause peut également être contrainte via un paramètre limitant le

nombre ou la proportion d'exemples négatifs vériant une clause, ou faux positifs. Par défaut

cette limite est de 0. Cependant, il n'est pas toujours possible d'apprendre une théorie qui

couvre correctement les exemples positifs en ne tolérant aucun faux positif, notamment lorsque

les données sont bruitées. Il est alors souvent nécessaire de permettre un faible nombre de ces

exemples négatifs. Une limite de faux positifs faible permet toutefois de réduire le nombre de

généralisations à eectuer et d'améliorer la spécicité des règles.

1.4 Apport des ontologies dans la découverte de connaissances

Les ontologies sous leurs diérentes formes : vocabulaire contrôlé, hiérarchie de termes,

lo-giques de description, etc. permettent de faciliter et d'améliorer les diérentes étapes du processus

de découverte de connaissances. On s'intéressera ici en particulier aux applications des ontologies

pour le domaine biomédical.

Les diérents rôles des ontologies dans ce processus sont décrits par [Rubin et al., 2007]

comme :

l'interrogation de données biomédicales hétérogènes ;

l'échange de données entre applications ;

l'intégration des données ;

la fouille de texte ;

le raisonnement automatique.

On détaillera ici deux axes principaux pour l'utilisation des ontologies dans la découverte de

connaissances : d'une part l'interopérabilité et l'intégration de données, d'autre part l'utilisation

de raisonnement dans la découverte de connaissances.

1.4.1 Interopérabilité et intégration de données

L'intégration de sources de données hétérogènes est une tâche complexe, notamment

lors-qu'une même entité est représentée de diérentes manières dans une ou plusieurs sources [Köpcke

and Rahm, 2010]. Une ontologie, en tant que vocabulaire contrôlé, permet de représenter ces

en-tités de manière identique dans diérents ensembles de données. L'ontologie peut également

pro-poser des relations de synonymie, permettant de déterminer les correspondances non-explicites

entre entités dans les données.

La fouille de texte bénécie grandement des ontologies en utilisant une terminologie liant les

termes dans le texte aux concepts d'une ontologie [Spasic et al., 2005, McCray et al., 1994,

Aron-son, 2001]. Les ontologies peuvent notamment être utilisées pour représenter cette terminologie.

Des systèmes de récupération d'information peuvent également exploiter la sémantique de

l'on-tologie pour interroger une base de textes, notamment en utilisant des contraintes sur les classes

d'objets à considérer et leurs relations [Müller et al., 2004] : on pourra par exemple récupérer

toutes les instances de type Gène liées par une relation de type régule.

L'intégration de données est également facilitée par la présence de liens entre diérentes

on-tologies. De nombreuses initiatives de la communauté biomédicale visent à la création de ces

liens, comme notamment le BioPortal [Whetzel et al., 2011], ou à la création d'ontologies de

haut-niveau uniant les ontologies entre elles, comme le Semantic Network de l'UMLS

[Boden-reider, 2004] ou l'ontologie MonDO [Mungall et al., 2017]. Les diérentes sources biomédicales

peuvent également être annotées par les termes de ces ontologies [Jonquet et al., 2011], ou rendues

disponibles au format LOD et directement liées [Dumontier et al., 2014].

Le paradigme Ontology-Based Data Access (OBDA accès aux données fondé sur les

onto-logies) [Calvanese et al., 2007, Poggi et al., 2008, De Giacomo et al., 2018] permet l'interrogation

de nombreuses sources de données via les ontologies et du raisonnement. Ici, l'ontologie sert de

vue globale sur un ensemble de sources de données : un système OBDA permet de transformer

une requête sur cette vue globale en requête sur chaque source de données, à l'aide de

correspon-dances dénies entre le schéma de données global et les schémas locaux. Cette approche est de

type médiateur, c'est-à-dire qu'elle permet de traiter plusieurs ensembles de données comme un

seul, sans avoir à modier les données elles-mêmes. Ce type de système a l'avantage de pouvoir

prendre en compte des changements dans les sources de données sans avoir à eectuer un

trai-tement sur ces données, tant que le schéma des données de change pas (ce qui n'est pas le cas

par exemple d'une transformation en LOD d'une base de données : la transformation doit être

eectuée pour chaque nouvelle version de la base de données).

1.4.2 Raisonnement dans la découverte de connaissances

Les mécanismes de raisonnement automatique fournis par les ontologies peuvent être utilisées

dans la découverte de connaissances. Cette contribution est néanmoins limitée par la forte

com-plexité de ces mécanismes. Les méthodes de fouille de données peuvent néanmoins être appliquées

sur des données liées à des concepts d'ontologies, souvent en proposant des moyens d'exploiter

la hiérarchie des concepts.

Par exemple, les diérents niveaux de la hiérarchie des concepts peuvent être considérés

pour extraire des règles d'association d'un ensemble d'objets annotés par des classes d'ontologie

[Manda et al., 2012]. Ces objets peuvent également être comparés à l'aide de mesures de similarité

sémantique pour y identier des sous-groupes.

1.4. Apport des ontologies dans la découverte de connaissances

Analyse Formelle de Concepts Les ontologies et la FCA sont deux manières de modeliser

et d'organiser des concepts. Cimiano et al. [Cimiano et al., 2004] décrivent un cycle d'interactions

entre la FCA et les ontologies :

1. La FCA permet d'aider à la construction ou à l'intégration d'ontologies [Stumme and

Maedche, 2001].

2. La FCA permet l'analyse et la visualisation des connaissances apportées par une ontologie

[Alam et al., 2015].

3. Finalement, les ontologies peuvent êtres utilisées dans le processus de FCA. Il est alors

nécessaire de représenter les connaissances de l'ontologie, ou un sous-ensemble de

celles-ci, dans un context formel. Cimiano et al. proposent de dénir les attributs du context

formel comme correspondant à des dénitions de concepts d'une ontologie, exprimées

en logique de descriptions. Un système de raisonnement pourra ainsi pour un ensemble

d'objets déterminer leur appartenance à chacun des concepts et construire un contexte

formel binaire.

Les structures de patrons sont notamment adaptées pour l'utilisation d'ontologies en FCA,

puisqu'elles permettent d'intégrer un processus de raisonnement dans l'opérateur de

comparai-son de descriptions. En particulier on peut dénir un opérateur de comparaicomparai-son exploitant la

hiérarchie is-a d'une ontologie pour comparer des objets décrits par un ensemble de classes

d'ontologie [Coulet et al., 2013].

Programmation Logique Inductive Les logiques de descriptions sont un fragment de la

logique du premier ordre [Baader et al., 2005]. Les mécanismes de raisonnement des ontologies

peuvent donc naturellement s'intégrer dans un processus de PLI. De manière similaire à la FCA,

la PLI peut permettre la découverte de nouvelles connaissances pour enrichir les ontologies, tout

en étant capable d'exploiter les connaissances existantes.

Lisi propose un formalisme combinant les logiques de descriptions et les clauses de Horn

pour permettre l'intégration d'ontologies dans le processus de PLI [Lisi, 2008], et d'exprimer une

théorie en logique de descriptions. Ce formalisme permet de former des concepts ou de raner

les dénitions des concepts d'une ontologie à partir d'un ensemble d'exemples.

Galárraga et al. proposent un algorithme, AMIE, de PLI permettant l'extraction de règles

d'association sous l'hypothèse du monde ouvert (c'est-à-dire en se basant sur le principe que les

connaissances sur les exemples sont non-exhaustives) [Galárraga et al., 2013]. Cet algorithme

a la particularité de fonctionner sans nécessiter d'exemples négatifs : en eet, les ontologies et

LODs ne comportent pas de faits négatifs, cet algorithme permet de traiter des connaissances

sans ressource externe identiant des exemples négatifs. Cela est possible notamment grâce à

l'existence de relations fonctionnelles ou inverse-fonctionnelles (ou considérées comme telles) : on

peut dans de tels cas considérer l'information présente comme complète.

Un objectif de cette thèse est d'étudier l'apport des ontologies et du raisonnement associé

pour la découverte de connaissances. On y décrira plusieurs méthodes, utilisant notamment les

structures de patrons pour exploiter la hiérarchie de concepts de plusieurs ontologies dans un

processus d'extraction de règles d'association et les mécanismes de raisonnements oerts par la

PLI dans une tâche de classication.

1.5 Contexte biomédical et applications