Matériel et méthodes

_medicaments

Dans une étude récente, [Hoehndorf et al., 2015] proposent un diseasome où les maladies sont

connectées en fonction de leur similarité phénotypique. Les auteurs ont produit un jeu de données,

extrait de la littérature, qui comprend plus de 6000de maladies OMIM annotées par les classes

de phénotypes de l'ontologie MonDO [Mungall et al., 2017]. Ainsi, une maladie est décrite par un

ensemble de classes de cette ontologie. Ils utilisent ensuite la fonction de similarité sémantique

SimGIC [Pesquita et al., 2007] pour comparer les maladies sur la base de leur phénotypes. On

propose ici de construire un diseasome similaire en utilisant la fonction de similarité sémantique

IntelliGO [Benabderrahmane et al., 2010], et de comparer les deux diseasomes dans capacité à

caractériser les diérentes classes de maladies, notamment les déciences intellectuelles.

3.2.1 Données et ontologies

On dispose pour cette expérience du jeu de données d'annotations de 6220 maladies OMIM

utilisé par [Hoehndorf et al., 2015]. Ce jeu de données est disponible à l'adresse http://aber-owl.

net/aber-owl/diseasephenotypes/

. Il contient des association entre des maladies et des

phé-notypes extraites d'un ensemble de plus de 5 millions de résumés d'articles de MedLine [US NLM,

2018]. Les phénotypes de ces associations sont exprimés sous la forme de classes de l'ontologie

MonDO, une ontologie uniant diérentes ontologies et jeux de données sur les maladies et leur

phénotypes.

On utilisera trois autres jeux de données comme vérité terrain pour l'évaluation du diseasome

produit. Parmi ces trois jeux de données, deux ont été mis à disposition par Hoehndorf et al.. Le

premier jeu de données proposé par Hoehndorf et al. est extrait de SIDER [Kuhn et al., 2015],

une base de données d'indications et d'eets secondaires de médicaments. A partir des indications

de SIDER, une liste de paires de maladies partageant au moins un médicament est établie. Le

second jeu de données proposé par Hoehndorf et al. est une classication de maladies extraite de

Disease Ontology (DO), utilisant 22 classes de haut niveau de DO. Certaines maladies peuvent

néanmois appartenir à plusieurs de ces classes. Finalement, on utilisera les relations entre gènes

et maladies fournies par OMIM pour une évaluation qui s'intéressera aux maladies génétiques.

3.2.2 Construction du diseasome fondé sur la similarité phénotypique

On suit ici la méthode décrite dans [Hoehndorf et al., 2015] pour la construction d'un

di-seasome fondé sur la similarité sémantique des phénotypes. On utilise la mesure de similarité

sémantique IntelliGO [Benabderrahmane et al., 2010], décrite en Section 1.2.3 du Chapitre 1,

pour calculer la similarité sémantique de chaque paire de maladies du jeu de données. Pour le

calcul de cette similarité, IntelliGO tient compte :

des annotations par des classes MonDO de chaque maladie, fournies dans le jeu de données

partagé par Hoehndorf et al..

de la fréquence d'annotation par chacune des classes de MonDO pour cet ensemble de

maladies, de manière à accorder plus d'importance aux annotations moins fréquentes ou

par des classes plus spéciques,

3.2. Matériel et méthodes

des relations rdfs:subClassOf et owl:equivalentClass dans la hiérarchie des classes de

MonDO.

IntelliGO est initialement concu pour fonctionner avec une hiérarchie de classes sous la forme

d'un graphe dirigé acyclique et enraciné. Cependant, MonDO contient des liens d'équivalence

entre les classes formant des cycles entre deux classes. SoitG(V, E) le graphe dirigé des classes

de MonDO tel queV est l'ensemble des classes et E ={(x, y)∈V

|xvy∨x≡y}, on dénit

un graphe dirigé acyclique représentant la hiérarchie de ses classesG

(V

, E

) tel que :

V

est l'ensemble des classes d'équivalence de V. On rassemble en un seul n÷ud de V

chaque ensemble de classes équivalentes. Ainsi, les n÷udsV

sont une partition de V. On

notera [x]la classe d'équivalence d'une classe x, telle que[x] ={y |x≡y}.

E

={([x],[y])|[x]6= [y]∧(x, y)∈E}.

De manière similaire, on remplacera, pour chaque maladie, chacune de ses annotations par la

classe d'équivalence correspondante. Ce graphe dirigé acyclique de classes extrait de MonDO

permet à IntelliGO de calculer la similarité entre les classes, avant d'aggréger ces similarités

classe à classe pour obtenir la similarité entre maladies. Cette aggrégation tient compte du

contenu d'information (IC) de chaque classe d'équivalence MonDO, en donnant un poids pour

l'aggrégation plus élevé aux classes les moins fréquentes.

On utilise IntelliGO pour construire une matrice de similarités deux à deux pour les 6220

maladies. Pour la construction du diseasome, on sélectionne un seuil de similarité correspondant

au minimum des0.5%plus hautes similarités. Chaque maladie est représentée dans le graphe du

diseasome par un n÷ud tandis que les arcs représentent les similarités supérieures ou égales à ce

seuil.

3.2.3 Evaluation du diseasome

Hoehndorf et al. proposent deux évaluations quantitatives de la capacité de leur diseasome à

correctement rapprocher des maladies similaires. Une première évaluation compare les similarités

entre maladies à une classication de maladies extraite de Disease Ontology [Schriml et al., 2011].

Une seconde évaluation compare ces similarités aux indications de médicaments partagées par

les maladies selon SIDER. Comme l'on s'intéresse aux déciences intellectuelles qui sont des

maladies génétiques, on propose ici une troisième évaluation comparant ces similarités à une

similarité fondée sur l'existence d'un gène responsables partagé par les deux maladies.

Ces diérentes évaluations sont eectuées grâce à une analyse ROC (Receiver Operating

Characteristic) qui permet de quantier le pouvoir de prédiction d'un modèle de classication à

diérents niveaux de sensibilité. Ici, on considérera le classement des paires de maladies comme un

Data: L'ensemble des maladies D, une mesure de similaritésim:D×D→_R

positif s← {x∈D |classesDO(d)∩classesDO(x)6=_∅}

similaritésim:D×D→_R