peuvent être générées de deux manières :
en supprimant un terme de la clause,
en remplaçant un littéral par une variable.
On cherche dans cet ensemble de clauses celle qui est vraie pour le plus d'exemples positifs
et le moins d'exemples négatifs. Aleph propose plusieurs méthodes pour explorer cet
ensemble de clauses et les évaluer en fonction de leur couverture des exemples.
4. En fonction des paramètres du programme, une clause est sélectionnée et ajoutée à la
théorie. L'exemple sélectionné à l'étape 1 est retiré de l'ensemble des exemples à
généra-liser. Les autres exemples vériant la clause sélectionnée peuvent également être retirés.
L'algorithme recommence à l'étape 1 pour les exemples restants.
Aleph requiert la dénition de biais d'apprentissage dénissant :
le prédicat à prédire par la théorie, c'est-à-dire le prédicat apparaissant dans la tête de
chaque règle de la théorie,
le type d'argument (variable ou littéral) autorisé dans les prédicats du corps des règles.
Par exemple, on pourra imposer que le second argument du prédicat subClassOf soit
toujours un littéral.
Aleph propose également de nombreux paramètres pour guider la construction d'une
théo-rie. Notamment, la fonction d'évaluation des clauses généralisées peut être modiée. Par
dé-faut, Aleph utilise la diérence du nombre d'exemples positifs vériant la clause avec le nombre
d'exemples négatifs la vériant. Il est également possible de spécier un nombre minium d'exemples
positifs pour qu'une clause soit ajoutée à la théorie, permettant d'exclure les clauses qui ne
dé-crivent qu'un seul ou peu d'exemples.
La généralisation d'une clause peut également être contrainte via un paramètre limitant le
nombre ou la proportion d'exemples négatifs vériant une clause, ou faux positifs. Par défaut
cette limite est de 0. Cependant, il n'est pas toujours possible d'apprendre une théorie qui
couvre correctement les exemples positifs en ne tolérant aucun faux positif, notamment lorsque
les données sont bruitées. Il est alors souvent nécessaire de permettre un faible nombre de ces
exemples négatifs. Une limite de faux positifs faible permet toutefois de réduire le nombre de
généralisations à eectuer et d'améliorer la spécicité des règles.
1.4 Apport des ontologies dans la découverte de connaissances
Les ontologies sous leurs diérentes formes : vocabulaire contrôlé, hiérarchie de termes,
lo-giques de description, etc. permettent de faciliter et d'améliorer les diérentes étapes du processus
de découverte de connaissances. On s'intéressera ici en particulier aux applications des ontologies
pour le domaine biomédical.
Les diérents rôles des ontologies dans ce processus sont décrits par [Rubin et al., 2007]
comme :
l'interrogation de données biomédicales hétérogènes ;
l'échange de données entre applications ;
l'intégration des données ;
la fouille de texte ;
le raisonnement automatique.
On détaillera ici deux axes principaux pour l'utilisation des ontologies dans la découverte de
connaissances : d'une part l'interopérabilité et l'intégration de données, d'autre part l'utilisation
de raisonnement dans la découverte de connaissances.
1.4.1 Interopérabilité et intégration de données
L'intégration de sources de données hétérogènes est une tâche complexe, notamment
lors-qu'une même entité est représentée de diérentes manières dans une ou plusieurs sources [Köpcke
and Rahm, 2010]. Une ontologie, en tant que vocabulaire contrôlé, permet de représenter ces
en-tités de manière identique dans diérents ensembles de données. L'ontologie peut également
pro-poser des relations de synonymie, permettant de déterminer les correspondances non-explicites
entre entités dans les données.
La fouille de texte bénécie grandement des ontologies en utilisant une terminologie liant les
termes dans le texte aux concepts d'une ontologie [Spasic et al., 2005, McCray et al., 1994,
Aron-son, 2001]. Les ontologies peuvent notamment être utilisées pour représenter cette terminologie.
Des systèmes de récupération d'information peuvent également exploiter la sémantique de
l'on-tologie pour interroger une base de textes, notamment en utilisant des contraintes sur les classes
d'objets à considérer et leurs relations [Müller et al., 2004] : on pourra par exemple récupérer
toutes les instances de type Gène liées par une relation de type régule.
L'intégration de données est également facilitée par la présence de liens entre diérentes
on-tologies. De nombreuses initiatives de la communauté biomédicale visent à la création de ces
liens, comme notamment le BioPortal [Whetzel et al., 2011], ou à la création d'ontologies de
haut-niveau uniant les ontologies entre elles, comme le Semantic Network de l'UMLS
[Boden-reider, 2004] ou l'ontologie MonDO [Mungall et al., 2017]. Les diérentes sources biomédicales
peuvent également être annotées par les termes de ces ontologies [Jonquet et al., 2011], ou rendues
disponibles au format LOD et directement liées [Dumontier et al., 2014].
Le paradigme Ontology-Based Data Access (OBDA accès aux données fondé sur les
onto-logies) [Calvanese et al., 2007, Poggi et al., 2008, De Giacomo et al., 2018] permet l'interrogation
de nombreuses sources de données via les ontologies et du raisonnement. Ici, l'ontologie sert de
vue globale sur un ensemble de sources de données : un système OBDA permet de transformer
une requête sur cette vue globale en requête sur chaque source de données, à l'aide de
correspon-dances dénies entre le schéma de données global et les schémas locaux. Cette approche est de
type médiateur, c'est-à-dire qu'elle permet de traiter plusieurs ensembles de données comme un
seul, sans avoir à modier les données elles-mêmes. Ce type de système a l'avantage de pouvoir
prendre en compte des changements dans les sources de données sans avoir à eectuer un
trai-tement sur ces données, tant que le schéma des données de change pas (ce qui n'est pas le cas
par exemple d'une transformation en LOD d'une base de données : la transformation doit être
eectuée pour chaque nouvelle version de la base de données).
1.4.2 Raisonnement dans la découverte de connaissances
Les mécanismes de raisonnement automatique fournis par les ontologies peuvent être utilisées
dans la découverte de connaissances. Cette contribution est néanmoins limitée par la forte
com-plexité de ces mécanismes. Les méthodes de fouille de données peuvent néanmoins être appliquées
sur des données liées à des concepts d'ontologies, souvent en proposant des moyens d'exploiter
la hiérarchie des concepts.
Par exemple, les diérents niveaux de la hiérarchie des concepts peuvent être considérés
pour extraire des règles d'association d'un ensemble d'objets annotés par des classes d'ontologie
[Manda et al., 2012]. Ces objets peuvent également être comparés à l'aide de mesures de similarité
sémantique pour y identier des sous-groupes.
1.4. Apport des ontologies dans la découverte de connaissances
Analyse Formelle de Concepts Les ontologies et la FCA sont deux manières de modeliser
et d'organiser des concepts. Cimiano et al. [Cimiano et al., 2004] décrivent un cycle d'interactions
entre la FCA et les ontologies :
1. La FCA permet d'aider à la construction ou à l'intégration d'ontologies [Stumme and
Maedche, 2001].
2. La FCA permet l'analyse et la visualisation des connaissances apportées par une ontologie
[Alam et al., 2015].
3. Finalement, les ontologies peuvent êtres utilisées dans le processus de FCA. Il est alors
nécessaire de représenter les connaissances de l'ontologie, ou un sous-ensemble de
celles-ci, dans un context formel. Cimiano et al. proposent de dénir les attributs du context
formel comme correspondant à des dénitions de concepts d'une ontologie, exprimées
en logique de descriptions. Un système de raisonnement pourra ainsi pour un ensemble
d'objets déterminer leur appartenance à chacun des concepts et construire un contexte
formel binaire.
Les structures de patrons sont notamment adaptées pour l'utilisation d'ontologies en FCA,
puisqu'elles permettent d'intégrer un processus de raisonnement dans l'opérateur de
comparai-son de descriptions. En particulier on peut dénir un opérateur de comparaicomparai-son exploitant la
hiérarchie is-a d'une ontologie pour comparer des objets décrits par un ensemble de classes
d'ontologie [Coulet et al., 2013].
Programmation Logique Inductive Les logiques de descriptions sont un fragment de la
logique du premier ordre [Baader et al., 2005]. Les mécanismes de raisonnement des ontologies
peuvent donc naturellement s'intégrer dans un processus de PLI. De manière similaire à la FCA,
la PLI peut permettre la découverte de nouvelles connaissances pour enrichir les ontologies, tout
en étant capable d'exploiter les connaissances existantes.
Lisi propose un formalisme combinant les logiques de descriptions et les clauses de Horn
pour permettre l'intégration d'ontologies dans le processus de PLI [Lisi, 2008], et d'exprimer une
théorie en logique de descriptions. Ce formalisme permet de former des concepts ou de raner
les dénitions des concepts d'une ontologie à partir d'un ensemble d'exemples.
Galárraga et al. proposent un algorithme, AMIE, de PLI permettant l'extraction de règles
d'association sous l'hypothèse du monde ouvert (c'est-à-dire en se basant sur le principe que les
connaissances sur les exemples sont non-exhaustives) [Galárraga et al., 2013]. Cet algorithme
a la particularité de fonctionner sans nécessiter d'exemples négatifs : en eet, les ontologies et
LODs ne comportent pas de faits négatifs, cet algorithme permet de traiter des connaissances
sans ressource externe identiant des exemples négatifs. Cela est possible notamment grâce à
l'existence de relations fonctionnelles ou inverse-fonctionnelles (ou considérées comme telles) : on
peut dans de tels cas considérer l'information présente comme complète.
Un objectif de cette thèse est d'étudier l'apport des ontologies et du raisonnement associé
pour la découverte de connaissances. On y décrira plusieurs méthodes, utilisant notamment les
structures de patrons pour exploiter la hiérarchie de concepts de plusieurs ontologies dans un
processus d'extraction de règles d'association et les mécanismes de raisonnements oerts par la
PLI dans une tâche de classication.
1.5 Contexte biomédical et applications
Dans le document
Apport des ontologies de domaine pour l'extraction de connaissances à partir de données biomédicales
(Page 50-53)