• Aucun résultat trouvé

Les ontologies héritières de fonctions diverses

2.2 Une diversité de fonctions et de domaines

2.2.1 Les ontologies héritières de fonctions diverses

En dépit d’une certaine continuité et complémentarité de ces fonctions, nous illustre- rions leur importante diversité à travers de trois usages types et actuels des ontolo- gies : l’extraction de données (Cf sec.2.2.1.1), l’interopérabilité de bases de connais- sances scientifiques (Cf sec.2.2.1.2) et la connexion des savoirs communs à travers le web (Cf sec.2.2.1.3).

2.2.1.1 Bases de connaissances scientifiques : pour une recherche «par

le bas»

Avant de citer des applications scientifiques concrètes des ontologies, circonscrivons leur fonction dans ce contexte à l’aide d’une expérience de pensée. Imaginons que la totalité des hôpitaux d’un pays disposent sur leurs serveurs d’une compilation de 30 ans de données biomédicales aussi diverses que la température corporelle d’un patient Aa après l’ingestion d’une substance S, le rythme cardiaque moyen de Bb le 27 Septembre à 12h57, la taille et le poids de Cc, etc. Quiconque pourrait accéder

à ces données disposerait d’une quantité inédite d’information de santé à même de dévoiler des co-dépendances et corrélations jusqu’alors impossibles à inférer. Cette possibilité de principe, sur le papier, se heurte toutefois à deux écueils majeurs :

a les bases de données de ces hôpitaux sont très probablement ordonnancées d’après

différents modèles de données – i.e. différentes logiques d’organisation internes (i.e. le Problème de la tour de Babel) et

b quand bien même l’organisation serait-elle similaire sur chaque silo, l’efficience

des inférences nécessite l’explicitation de nombreuses données implicites, certes évidentes pour l’humain, mais inaccessibles à la machine.

Si le problème a) n’a rien de propre à ce cas de figure et ne consiste jamais en rien de plus qu’une problématique de fusionnement de données, l’élaboration d’une ontologie a également un rôle à jouer pour la problématique b). En effet, comprendre que (fait 1) Aa ingère S à 27/09/2015 12 :57 et (fait 2) Aa température 38.5°C

14 :26 sont liés en ce qu’ils concernent le même individu, le même organisme, est

une information aussi précieuse que capitale pour espérer découvrir une relation de causalité ou, à défaut, de corrélation entre la consommation de S et l’augmentation de la température corporelle. Sans pouvoir énumérer l’ensemble de ces implicites, on est en droit d’imaginer que des connaissances tacites aussi diverses que i) le fait que ce bras soit rattaché au corps , ii) qu’un agent pathogène soit la cause d’une pathologie mais iii) qu’il puisse y avoir des pathologies sans agent pathogène sont aussi pertinentes que la permanence de l’individu dans le temps pour quelque inférence bio-médicale que ce soit. Or, si l’on veut qu’un système puisse réaliser ces mêmes inférences d’une manière relativement libre, exploratoire et non encadrée, il nous faut alors nécessairement le doter d’une connaissance de ces implicites afin de ne pas avoir à les spécifier pour chaque inférence possible – e.g. ne pas avoir à spécifier que la salmonelle meure au contact de la javel (le simple fait qu’elle soit une bactérie l’induit). C’est ici que les ontologies interviennent.

Le cas de l’OBO foundry L’OBO foundry – pour Open Biomedical Ontologies

– est une initiative née en 2001 de la volonté de Michael Ashburner and Suzanna Lewis de fournir un accès aussi bien à leur Ontologie du Gène (Go) (M. Ashburner et al. 2000) qu’à un certain nombre de similaires entreprises de formalisation du savoir biologique et médical sous la forme d’ontologies : i) des maladies humaines

(Human Disease Ontology), 23 des protéines (PRotein Ontology Pro), 24 des entités

chimiques connues pour leur rôle biologique (Chebi), 25 etc 26 Plus qu’une simple

collection d’ontologies disparates jetées pêle-mêle dans le même répertoire, les espoirs placées dans l’OBO foundry par ses créateurs comme une part majeure de ses acteurs sont beaucoup plus ambitieux : fusionner (merging) l’ensemble de ces savoirs locaux en vue :

• d’éviter la prolifération de schèmes locaux

• de favoriser la convergence d’ontologies de mêmes domaines vers des ontologies uniques (B. Smith 2008a)

• estomper la discontinuité des connaissances d’un domaine à l’autre en vue • de découvrir de nouveaux savoirs qui ne faisaient jusqu’alors pas même l’objet

d’hypothèses. (B. Smith, M. Ashburner et al. 2007)

Figure 2.4 – Effets de la tetracycline (Fict)

Si les deux premières finalités ne relèvent que de la gestion de données – et ses problé- matiques de fusionnement, interopérabilité,

etc – attardons nous plus longuement sur les

deux dernières qui révèlent un rôle nouveau, potentiellement inférentiel, des ontologies de systèmes. En effet, se joue dans ce contexte de fusionnement massif – on compte en effet 142 ontologies actives aussi diverses que le

Foundational Model of Anatomy (Fma), la Drug-Drug Interactions Ontology (Dinto)

ou l’Emotion Ontology (Mfoem) sur cette plateforme – la possibilité qu’un même système expert puisse pour la première fois disposer de l’ensemble des connais- sances de domaines distincts mais complémentaires quoique jusqu’alors toujours te- nus séparés pour une raison essentiellement pragmatique : aucun humain ou groupe d’humains ne saurait embrasser une telle diversité de connaissances pour produire quelque hypothèse que ce soit. Deux remarques s’imposent.

23 http://purl.obolibrary.org/obo/doid.owl 24 http://purl.obolibrary.org/obo/pr.owl 25 http://purl.obolibrary.org/obo/chebi.owl

Fondements et interconnexions de ces ontologies Premièrement, nous avons

eu l’occasion de souligner que le fusionnement de bases de données (silo) supposait un agencement, une structuration à même d’éviter d’éventuelles inconsistances qui découleraient de phénomènes de synonymie, de redondance ou d’effets d’échelle dans le cas de degrés de granularités différents. 27 Le cas du fusionnement d’ontologies

distinctes, tant par leur structuration que par leurs domaines respectifs, obéit à un impératif similaire quoique résolu par divers dispositifs : un ensemble de règles et de bonnes pratiques d’étiquetage sur la plateforme, un protocole de validation,

etc. 28 Toutefois, l’un des dispositifs qui nous intéressera le plus par la suite ne

consiste en rien de plus qu’articuler toutes ces ontologies selon la même logique que précédemment. Toutefois, de part la diversité des domaines, cette tâche suppose le concours d’un type d’ontologies bien particulières appelées Ontologies Fondation-

nelles que nous prendrons le temps de présenter en sec.2.3. Dispensons nous pour

l’instant d’une présentation complète en prenant un exemple : la tetracycline est-elle un allergène ?

Figure 2.5 – Obi : conceptualisation d’une réaction allergique

Le système dispose de deux ontologies lo- cales. La première, l’Ontology for Biomedi-

cal Investigations (Obi), conceptualise entre

autres choses les réactions allergiques (Cf fig.2.5) et la seconde, ontologie fictive crée pour les besoins de l’exemple (Fict), énonce les relations et manifestations relevées par un consortium de laboratoires d’analyses et de tests sur sujets humains (Cf fig.2.4). Que manque-t-il pour qu’un système expert doté des deux bases de connaissance puisse inférer que la tetracycline est un allergène ? Notons tout d’abord que les deux graphs sont déjà

liés en un point. Ainsi, en tant que processus pathologiques, fièvre et pelure 27e.g. «paroi» désignerait une frontière continue entre des organes à l’échelle anatomique mais

les limites d’une cellule à l’échelle cellulaire.

28«Foundry, and to its on-going process of review, only if their developers commit to an evolving

set of common principles (B. Smith, M. Ashburner et al. 2007), of which the most important for our purposes are : 1) that terms and definitions should be built up compositionally out of component representations taken either from the same ontology or from more basic feeder ontologies ; 2) that for each domain there should be convergence upon exactly one Foundry ontology ; (B. Smith 2008a) that ontologies should use upper-level categories drawn from Basic Formal Ontology (BFO) together with relations unambiguously defined according to the pattern set forth in the OBO Relation Ontology (RO) (B. Smith, Ceusters et al. 2005).» (Ceusters et B. Smith 2010, p. 160)

cutanée seront immédiatement liées au processus pathologiques (pathologic

process) de l’Obi. Pourtant, à ce stade, le système demeure incapable de déduire que

la tetracycline est un allergène. La raison tient au fait que, ainsi que conceptualisé dans Obi, une réaction allergique, responsable d’une manifestation pathologique, nécessite une entité matérielle, plus spécifiquement un allergène, pour se produire. Or, rien ne dit dans Fict que la tetracycline est une entité matérielle. Il manque donc une liaison de ce concept à un concept plus fondamental à même d’assurer le pont entre ces ontologies locales. Assurer un tel pont entre divers domaines au moyen de concepts généraux – calqué sur l’anglais, nous parlerons de concepts et d’ontologie domaine généraux (domain general) – convenablement articulés les uns aux autres est précisément la fonction des ontologies fondationnelles. Dans le cas de l’OBO foundry, la BFO et ses catégories on ne peut plus générales – e.g. en- tité matérielle, disposition, processus, etc – assure la liaison entre ces ontologies qui conceptualisent alors leurs concepts propres comme de lointaines instances des classes de Bfo. 29

Une science guidée par les données Il convient deuxièmement de remarquer

que la possibilité offerte par ce dispositif incarne probablement le rêve épistémo- logique le plus anti-popperien depuis le Novum Organum de Bacon : 30 celui de

«remonter» des faits aux hypothèses d’une manière quasi déductive – nous nuan- cerons ce déductivisme par la suite. En effet, l’une des idées qui se cachent derrière le désir d’intégrer les données biomédicales de terrain de Snomed-CT – collections de termes médicaux destinés à décrire les données patients en vue de les intégrer en ligne dans un scénario en bien des points similaire au scenario fictif proposé plus haut 31 – avec des bases de connaissance comme l’OBO Foundry n’est autre

que de voir la marche du progrès scientifique non plus guidée par des hypothèses jetées ça et là dans la diversité des domaines complexes mais par les données elles- mêmes. Décrit comme rien de moins qu’un nouveau paradigme scientifique (Kitchin 2014), la science guidée par les données (Data-Driven Sciences), par l’information (Information-Driven Sciences) ou, notion connexe la Datamasse (Big Data) appli- 29A titre d’exemple, pour remonter jusqu’aux concepts racines de Bfo, une acclimatation

(Obi) est un Processus planifié, soit un processus, soit un occurent (entité se produisant dans le temps) soit une entité. Un cancer est une maladie, soit une disposition, soit une entité réalisable, soit un continuant spécifiquement dépendant, soit un continuant, soit une entité. Nous reviendrons sur ces catégories en sec.2.3.2.1.

30Hormis une brève allusion en (M. Smith 2006), cette ironie historique n’est à notre connaissance

pas relevée dans la littérature ontologique contemporaine.

quée à l’investigation scientifique a su prouver son utilité dans le cas des sciences de systèmes complexes comme les sciences bio-médicales (Blake et Bult 2006). Parmi les multiples plateformes développées au sein de ce paradigme, nous citerions pour finir le projet Omnity destiné à identifier les dépendances sémantiques de concepts implicitement évoqués dans des articles scientifiques en vue i) de les révéler à l’uti- lisateur, ii) d’identifier la littérature pertinente et iii) de lier ensemble ces notions ainsi que leur évolution dans le temps. 32

2.2.1.2 Extraction de données et compréhension textuelle

Une importante fonction dont les ontologies héritent de leurs ancêtres linguistiques n’est autre que de guider, par leur distinction explicite de types d’entités, l’extrac- tion de connaissances structurées de données i) textuelles (text-mining) ou ii) peu ou mal organisées (data-mining). L’idée générale, proche en cela des autres tech- niques usitées dans le Traitement Automatisé des Langues Humaines (TALH Cf sec.3.3), consiste à pourvoir l’algorithme d’analyse d’expressions régulières (parsing) d’une représentation d’arrière plan, structurée et consistante avec pour but que la représentation du contenu textuel ainsi que les subséquentes inférences du système soient davantage guidées par des critères sémantiques que syntaxiques ou statistiques (Zhou et Geller 2007). 33 La notion de Web Sémantique rencontrée au chapitre

précédent tient justement son nom de cette idée générale de faire correspondre les chaînes de caractères présentes sur les pages web à autre chose qu’elles-mêmes.

De par la multitude d’architectures destinées à remplir ce rôle – nous citerions au premier titre les projets Weka (T. Smith et Frank 2016),34MiningMart (Morik et

Scholz2004),35Knime,36ou E-Lico (Kietz, Floarea Serban et al. 2009 ; Kietz,

F. Serban et al. 2010) 37 – nous ne nous contenterons que d’un exemple illustratif

liant directement et explicitement ces techniques à l’Ingénierie des Connaissances. 32

https://www.omnity.io/

33Pour dire un mot rapide au sujet de ces deux méthodologies complémentaires, la première

consiste typiquement en une identification des rôle grammaticaux des sèmes sur la base de mar- queurs syntaxiques – e.g. prépositions (dans, sur), appositions, etc – ou, plus simplement, de leur position dans la phrase. Concernant la seconde, une méthode statistique typiquement utilisée sur de grand corpus consiste à juger de la corrélation de termes sur la base du nombre moyen de mots les séparant (n-grams).

34 http://www.cs.waikato.ac.nz/ml/weka/ 35 http://mmart.cs.uni-dortmund.de/ 36 http://www.knime.org/

37«Formalizing the meaning of the data requires a large amount of domain knowledge. Eliciting

all the possible needed background information about the data from the user would probably be more demanding for her than designing useful workflows manually.» (Kietz, F. Serban et al. 2010,

En référence à (Dou, H. Wang et Liu 2015), nous appellerons cette forme spéci- fique d’extraction «Extraction Sémantique de Données » (Semantic Data Mining) ou encore l’«Extraction d’information basée sur une Ontologie» (Ontology-based in-

formation extraction ou Obie (Wimalasuriya et Dou 2010)). 38

Application des ontologies de l’OBO Foundry à l’extraction de données

Outre ces multiples usages, la Gene Ontology (Go) rencontrée au chapitre précédent a également été exploitée pour l’Obie ; méthodologie que l’on trouve décrite en (Scheuermann et al. 2010).

Celui- s’ouvre sur un constat : celui que le Déluge Informationnel touche égale- ment la publication scientifique. Scheuermann et collaborateurs font ainsi remarquer que, d’après PubMed, la seule année 2007 a vu paraître pas moins de 750000 articles sur près de 5000 revues biomédicales. En dépit de l’existence de diverses standardi- sations de la présentation des résultats dans les articles, 39 une importante part des

informations pertinentes figurent sous une forme textuelle libre. 40 Or, cet état de

fait entrave deux des importants services que la machine pourrait remplir auprès du scientifique humain : i) le tenir informé en temps réel, ou presque, des dernières dé- couvertes et confirmations expérimentales de son champ d’étude ii) faciliter la mise en place de meta-analyses – i.e. réutilisation des résultats d’analyses expérimentales précédentes en vue des les intégrer dans un bloc de données massif statistiquement plus fiable que la somme disparate de résultats expérimentaux isolés. Après une présentation des ontologies en général et de celles de l’OBO Foundry dont nous pouvons nous dispenser, l’article propose deux illustrations de leur interventions possibles dans l’extraction de données. Nous ne présenterons ici que la première. 41

38«Data mining also combines techniques from statistics, artificial intelligence, machine learning,

database system, and many other disciplines to analyze large data sets. Semantic Data Mining refers to data mining tasks that systematically incorporate domain knowledge, especially formal semantics, into the process.» (Dou, H. Wang et Liu 2015, p. 529)

39(Scheuermann et al. 2010) fait plus particulièrement mention du Minimum Information

About a Microarray Experiment (Maime paradigm) (Brazma et al. 2001), du Minimum Infor- mation for Biological and Biomedical Investigations (Mibbi project) (Taylor et al. 2008), et du Minimum Information Requested in the Annotation of Biochemical Models (Miriam) (Le Novère et al. 2005).

40«While computers have the potential for assisting investigators in the extraction, management

and analysis of these data, information contained in the traditional journal publication is still largely unstructured, free-text descriptions of study design, experimental application and results interpretation, making it difficult for computers to gain access to the content of what is being conveyed without significant manual intervention.» (Scheuermann et al. 2010, p. 529)

41La seconde est une application exclusivement basée sur la Gene Ontology (Go) dont on peut

retrouver la présentation complète en (J.A. Lee et al. 2006). «Several groups have developed ap-

proaches for utilizing GO annotation as a means for identifying relevant biological processes asso- ciated with gene expression clusters derived from microarray data by assessing whether specific GO

Exemple d’une extraction d’information ontologiquement guidée Imagi-

nons que nous disposions d’un tableau de résultats de l’expression d’un gène sur le pancréas de rats (rattus norvegicus) souffrant d’un diabète de type I (insulinodé- pendant) en présence ou en l’absence de cyclosporine (une substance immunosup- pressive). En dépit de la significativité de ces résultats, réaliser une méta-analyse sur la base d’autres résultats expérimentaux prémunirait l’étude de faux positifs et autres erreurs statistiques consécutives de la taille réduite des échantillons. Or, si le tableau de données, à l’instar de ceux de la majorité de la littérature, présente les résultats sous une forme standardisée et accessible à un algorithme, il n’en va en revanche pas de mêmes de la précédente description du dispositif expérimental, de la population concernée et, plus généralement, de l’ensemble des variables non explicitement identifiées comme facteurs dans les analyses statistiques inférentielles. Ces dernières figurent le plus souvent sous une forme textuelle de la section Material

and Method des articles ; raison pour laquelle les méta-analyses se bornent le plus

souvent à une comparaison avec deux ou trois autres expériences identifiées «ma-

nuellement» comme similaires par les auteurs. Mais comment déterminer de manière

automatique et fiable la pertinence d’autres sources ? 42 C’est ici que les ontologies

de l’OBO Foundry interviennent, circonscrivant avec plus de précision cette vague notion de «similarité».

Les annotations du Foundational Model of Anatomy (Fma) permettront d’iden- tifier ce qu’est le pancréas : un organe partagé par l’ensemble des mammifères dont l’humain. Croisée avec la taxinomie animale de la NCBI, les expériences réalisées sur des espèces génétiquement proches du rattus norvegicus comme le rattus rattus pourraient être également intégrée dans le bloc de données – en intégrant bien sûr cette différence comme une variable à tester. En tant que maladie auto-immune des glandes endocrines, le diabète de type I est en cela très proche des maladies de Graves et d’Addison ; termes liés qui pourraient être identifiés puis repérés dans la littéra- ture à l’aide de la Disease Ontology. Enfin, une ontologie comme ChEBI (Chemical

Entities of Biological Interest) permettrait de faire le rapprochement avec d’autres

composants immunosuppressifs utilisés dans de similaires expérience à intégrer à la

annotations are over-represented in the gene cluster (e.g. (J.A. Lee et al. 2006) and http ://ge- neontology.org/GO.tools.shtml). The Classifi algorithm not only assesses the co-clustering of the primary GO annotations for genes in a cluster, but also captures the parent terms from the GO hierarchy for this assessment.» (Scheuermann et al. 2010, p. 548)

42«One approach for addressing these inaccuracies is to compare your data with related data sets

under the assumption that any discoveries made with independent, related data sets are likely to be real and relevant. So how does one determine which data sets are ’related’ in a comprehensive, objective way.» (Scheuermann et al. 2010, p. 546)

méta-analyse. 43

2.2.1.3 L’agrégation des connaissances communes

Les connaissances scientifiques ne sont pas les seules à avoir attiré l’attention des ontologues en ce que l’on compte bon nombre d’entreprises de formalisation des connaissances communes accessibles sur internet. Prenons quelques exemples.

FactForge Le premier et probablement le plus spectaculaire de tous n’est autre

que FactForge (Bishopa et al. 2011) 44 qui agrège les données de sources aussi

variables que DBpedia, le New York Times, MusicBrainz, Lingvoj, Lexvo, le CIA World Factbook, WordNet, Geonames, et Freebase tout en fournissant une interface de requêtes et d’inférences. Pour détailler quelque peu ce qui compose cette collec- tion de plus de trois millions d’énoncés, 45 ses sources sont de natures et d’origines

bien diverses. On compte ainsi des bases de connaissances générales à l’initiative de collectifs privés (DBpedia) 46 ou institutionnels (CIA World Factbook), 47 une

encyclopédie musicale (MusicBrainz), 48 des dictionnaires de synonymes pour l’an-

glais (Wordnet), 49 ou encore pour l’anglais vers d’autres langues (Lingvoj, Lexvo). 50 Cette pluralité de sources illustre à merveille les multiples parentés des ontologies

comme dispositifs techniques. L’on voit ainsi qu’elles découlent aussi bien d’un para- digme de recherche en linguistique – le paradigme inférentiel qui exploite la proximité