1.5 Contexte biomédical et applications
1.5.2 Médecine fondée sur les réseaux et diseasomes
La médecine fondée sur les réseaux, ou network-based medicine, repose sur la représentation
de données biologiques sous forme de graphes pour la découverte de connaissances biomédicales
[Barabási et al., 2011]. Ainsi, l'étude topographique de réseaux de maladies connectées entre
elles par des gènes communs, des interactions protéines-protéines ou des similarités sémantiques
pourraient mener à l'identication des causes de ces maladies, ou la réutilisation d'un médicament
contre une nouvelle maladie.
On s'intéressera ici aux diseasomes, c'est-à-dire à des graphes de maladies dans lesquels
les liens dénotent une similarité entre deux maladies. Diérentes approches pour la construction
d'un diseasome ont été proposées, fondées sur diérents critères de similarité. On dénira d'abord
quelques notions de bases sur la théorie des graphes.
Dénition 32. Un graphe simple,Gest déni comme un ensemble de n÷udsV ( vertices) et un
ensemble d'arêtesE ( edges) représentées sous la forme d'une paire de noeuds, tel queE ⊆V×V.
Les diseasomes utilisent fréquemment des graphes dont les n÷uds représentent deux types
d'objets, comme par exemple des maladies et des gènes. Il est courant dans ce cas que ce type
de graphe présente des arcs uniquement entre un n÷ud gène et un n÷ud maladie. Un tel graphe
est alors appelé graphe bipartie.
Dénition 33. Un graphe G= (V, E) est dit bipartie s'il existe deux ensembles disjoints V
1et
V
2tels que V
1∪V
2= V, et E∩(V
1×V
1∪V
2×V
2) = ∅; c'est-à-dire, qu'il existe deux
sous-ensembles disjoints complémentaires deV, tels qu'aucune arête ne lie deux éléments d'un même
de ces sous-ensembles.
The Human Disease Network Dans [Goh et al., 2007], Goh et al. proposent le Human
Disease Network, un graphe représentant la proximité génétique entre maladies. Ils construisent
d'abord, à partir d'une liste d'associations entre gènes et maladies extraite d'OMIM, un graphe
bipartie ayant pour n÷uds, d'une part les gènes, d'autre part les maladies, et où une arête
représente l'association entre un gène et une maladie.
Ce graphe bipartie permet ensuite la construction du Human Disease Network, un graphe où
les n÷uds représentent des maladies, et où un arc(d
i, d
j)représente le fait qued
ietd
jpartagent
un gène responsable. Les auteurs observent dans ce graphe quelques n÷uds fortement connectés
formant des hubs représentant des classes de maladies, et ce, bien que le graphe soit généré sans
connaissance a priori de ces classes. C'est le cas par exemple des diérents cancers, fortement
connectés entre eux par les nombreux gènes associés à de nombreux types de cancers.
Un Disease Gene Network est également construit à partir du graphe bipartie initial : les
n÷uds y représentent des gènes, et les arcs (g
i, g
j) représentent le fait que g
iet g
jsont
respon-sables d'une même maladie. Ce graphe propose une vue complémentaire des données à celle du
Human Disease Network, et on y retrouve également certains hubs, par exemple celui des gènes
responsables de cancers.
Les auteurs analysent la topologie des deux graphes obtenus, par rapport à des graphes
générés à partir de données aléatoires. Ils observent alors que la topologie du Human Disease
Network et Gene Disease Network dièrent signicativement de ce qui serait attendu au hasard
(p < 10
−4). Le Human Disease Network possède également près de 8 fois plus de liens entre
maladies d'une même classe que des graphes produits à partir de données aléatoires.
Phenotypic Disease Network Dans [Hidalgo et al., 2009], Hidalgo et al. proposent le
Phe-notypic Disease Network pour représenter la comorbidité de maladies, identiées par des codes
ICD-9-CM. Ils utilisent les données du système d'assurances fédéral américain Medicare
[Lau-derdale et al., 1993, Mitchell et al., 1994] pour identier des maladies co-occurant fréquemment
dans un échantillon de plus de 30 millions de patients. Le système Medicare étant avant tout
destiné aux patients de plus de 65 ans, les auteurs notent que le Phenotypic Disease Network
n'est pas représentatif de la population globale.
An de quantier la comorbidité de deux maladies, les auteurs utilisent le coecient de
corrélation de Pearson (φ) [Pearson, 1895] et le Risque Relatif (RR) [Copeland et al., 1977].
Le Risque Relatif calculé entre deux maladies X etY équivaut au ratio entre le risque d'avoir
la maladie X si l'on a Y et le risque d'avoir la maladie X dans l'ensemble de la population
étudiée
8. Chacune de ces mesures de la comorbidité présente des biais. Le risque relatif
sur-estime la comorbidité des maladies rares et sous-sur-estime celle des maladies communes, tandis
que le coecient de corrélation de Pearson estime correctement la comorbidité de maladies de
fréquences similaires mais sous-estime la comorbidité de maladies de fréquences très diérentes
[Hidalgo et al., 2009].
Ainsi, les auteurs construisent un Phenotypic Disease Network pour ces deux mesures,
puis-qu'elles présentent des avantages et inconvénients complémentaires. Ils constatent que les valeurs
de risque relatif calculées sont similaires à celles obtenues par des études de suceptibilité
géné-tique. Les deux graphes construits présentent certaines similarités : par exemple, la proximité
entre Poisoning by drugs & toxic substances et Psychoses et Neurotic disorders (voir Figure 1.11).
Par ailleurs, on peut observer dans le graphe une bonne répartition des maladies par rapport à
leur classe ICD-9-CM de premier niveau.
Certains faits intéressants peuvent être extraits du Phenotypic Disease Network : la
connec-tivité d'une maladie dans le graphe est corrélée avec sa mortalité. Les auteurs démontrent que
cette corrélation n'est pas seulement due au fait que un plus grand nombre de diagnostics puisse
être corrélé avec un plus grand risque de mortalité. Au contraire, le nombre de visites chez un
praticien et le nombre de diagnostics sont négativement corrélés à la mortalité. Le Phenotypic
Disease Network permet donc de mettre en évidence avec une haute comorbidité sont associées
à une plus haute mortalité.
Human Symptoms-Disease Network Pour les praticiens, les symptômes sont les
mani-festations les plus visibles d'une maladie. [Zhou et al., 2014] proposent donc de construire un
diseasome se basant sur la similarité des symptômes des maladies. Les symptômes sont extraits
des métadonnées MeSH (Medical Subject Headings) de PubMed [Wheeler et al., 2007, HJ and
G, 1994], un moteur de recherche bibliographique répertoriant la littérature biomédicale. Sur un
échantillon de plus de 7 millions de documents, les auteurs extraient147978liens entre4219
ma-ladies et322symptômes. Chaque maladie est alors représentée par un vecteur de symptômes, en
8. On notera que le risque relatif est symmétrique :P(X|Y)/P(X) =P(Y |X)/P(Y) =P(X∩Y)/P(X)P(Y)
1.5. Contexte biomédical et applications
Figure 1.11 Deux versions du Phenotypic Disease Network, le premier (A) construit à partir
du Risque Relatif, le second (B) construit à partir du coecient de corrélation de Pearson. Les
couleurs de chaque n÷ud représentent une classe du premier niveau de la classication
ICD-9-CM. Source : [Hidalgo et al., 2009]
utilisant une pondération tf-idf, et leurs similarités deux-à-deux sont calculées comme le cosinus
de ces vecteurs.
Les auteurs construisent également un graphe liant entre eux des maladies sur la base des
interactions entre les protéines produites par leur gènes responsables : deux maladies sont liées si
un de leur gène produit une protéine interagissant avec une protéine d'un gène de l'autre maladie,
ou s'il existe une troisième protéine avec laquelle les deux autres ont une interaction. A fortiori,
deux maladies sont liées si elles partagent un gène en commun.
Les auteurs comparent ce graphe au graphe obtenu par le calcul des similarités phénotypiques.
Ils observent une corrélation entre les interactions protéine-protéine des gènes de deux maladies
et la similarité de leurs phénotypes. De même, il existe une corrélation entre les gènes partagés
par deux maladies et leur similarité.
PhenUMA PhenUMA [Rodríguez-López et al., 2014] est une application web permettant
la visualisation de réseaux de données biologiques mettant à prot les méthodes de similarité
sémantique ainsi que les données sur les maladies génétiques et les interactions entre gènes.
Les auteurs calculent les similarités phénotypiques des diérents gènes et maladies en
appli-quant la mesure de similarité de Resnik, aggrégée avec la fonction Best-Match Average, à des
annotations de phénotypes exprimées dans le vocabulaire de l'ontologie HPO. Ils calculent
éga-lement les similarités fonctionnelles des gènes par la même méthode en utilisant les annotations
GO des gènes.
PhenUMA propose alors de visualiser et d'interroger plusieurs types de graphes : graphe de
maladies, graphe de gènes, fondés respectivement sur la similarité des annotations HPO et GO,
interactions des protéines de deux gènes, ou sur les gènes partagés par deux maladies.
Diseasome fondé sur l'interactome La network-based medicine peut également être utilisée
pour évaluer la proximité de maladies et de médicaments. [Guney et al., 2016] proposent d'estimer
pour des paires médicament-maladie, l'ecacité de ce médicament contre cette maladie. Pour
cela, les auteurs proposent d'explorer un graphe représentant les associations entre gènes ou
protéines
9et maladies, les protéines ciblées par les médicaments (par des liens
médicament-protéine) et les interactions entre les protéines.
Ce graphe permet la quantication de la proximité d'un médicament à une maladie : pour une
paire médicament-maladie, on peut calculer la distance en nombre d'arcs dans le graphe entre
une protéine ciblée par le médicament et une protéine impliquée dans la maladie. Les auteurs
proposent 4 mesures de proximité entre un médicament et une maladie sur la base de cette
distance :
closest : moyenne des distances, pour chaque protéine cible du médicament, à la protéine
de la maladie la plus proche ;
shortest : moyenne des distances, entre chaque paire protéine cible et protéine de la
maladie ;
kernel : similaire à shortest, mais une pondération exponentielle donne plus d'importance
dans le calcul de la moyenne aux chemins les plus courts ;
centre : moyenne des distances, pour chaque protéine cible du médicament, au centre
topologique des protéines de la maladie ;
Chaque distance calculée pour une paire médicament-maladie est ensuite comparée à une
distribution aléatoire de la même distance calculée pour un ensemble de protéines cibles et
un ensemble de protéines de la maladie pris au hasard (mais de même cardinalités que ceux
1.5. Contexte biomédical et applications
Figure 1.12 Calcul de la proximité entre un médicament et une maladie avec la mesure closest.
A gauche, le graphe des interactions de gènes ou protéines, où sont représentés les chemins entre
chaque cible du médicament et la protéine de la maladie la plus proche. A droite, le calcul de
la distribution de la distance pour des cibles et protéines de maladies randomisées, ainsi que le
calcul nal de la proximité médicament-maladie en nombre d'écarts-types. Source : [Guney et al.,
2016]
correspondants à la paire médicament-maladie en question). En particulier, les auteurs calculent
le nombre d'écarts-types de la distance calculée pour la paire par rapport à la distribution des
distances randomisées. La Figure 1.12 illustre le calcul de la proximité entre un médicament et
une maladie avec la mesure closest.
Les auteurs évaluent leur diérentes mesures de proximité sur l'ensemble des paires
médicament-maladie de leur jeu de données, en essayant de distinguer les paires positives, c'est-à-dire
correspondant à une indication connue, des autres considérées comme négatives. Les paires
médicament-maladie sont alors classées en fonction de leur proximité relative à la proximité
randomisée, permettant de calculer l'aire sous la courbe ROC. Les auteurs concluent que la
me-sure closest est la plus performante avec une aire sous la courbe de0.66, ce qui semble indiquer
qu'il n'est pas nécessaire pour un médicament d'avoir des cibles proches de toutes les protéines
d'une maladie pour être ecace contre cette maladie. De plus, les paires associant un
médica-ment et une maladie proches sont sur-représentées dans les essais cliniques (p < 10
−8). Ainsi,
cette approche semble adéquate pour le classement ou la découverte de médicaments candidats
pour des essais cliniques.
Diseasome fondé sur la similarité sémantique des phénotypes Un diseasome peut
éga-lement être construit à partir d'une similarité sémantique. [Hoehndorf et al., 2015] proposent un
diseasome construit à partir de plus de 6000 maladies. Chacune de ces maladies est associée à un
ensemble de phénotypes extraits par fouille de texte sur plus de 5 millions de résumés d'articles
MEDLINE [US NLM, 2018]. Ces phénotypes sont des classes de l'ontologie MonDO [Mungall
et al., 2017], permettant la comparaison sémantique de ces maladies. Ces annotations de
mala-die ont été évaluées par comparaison aux phénotypes décrits dans OMIM, puis ont été mises à
disposition librement
10.
Les auteurs utilisent la mesure de similarité sémantique SimGIC [Pesquita et al., 2007] et
l'ontologie MonDO pour calculer la similarité des maladies. Les paires de maladies sont alors
classées en fonction de leur similarité. Le diseasome est construit comme le graphe dont les
n÷uds sont les maladies et les arcs sont les0.5%paires de maladies à la similarité la plus élevée.
Les auteurs conduisent ensuite trois évaluations des similarités calculées, et par extension du
diseasome généré à partir de cette similarité. Ils évaluent d'abord le classement par similarité
par rapport à un ensemble de 22 classes de maladies de haut niveau extrait de Disease Ontology
[Schriml et al., 2011]. Pour chaque maladie d, le classement des autres maladies d
ipar rapport
à leur similarité à dest évalué par l'aire sous la courbe ROC, où une maladie d
iest considéré
comme positive si elle partage une classe Disease Ontology avec d.
Ils évaluent ensuite le même classement par rapport aux médicaments partagés par des
mala-dies. Pour l'ensemble des paires de maladies(d
1, d
2), cette paire est considérée positive si il existe
un médicament indiqué pour traiter d
1et d
2. Les indications de médicaments sont tirées de la
base de données SIDER 2 [Kuhn et al., 2015]. Cette évaluation permet de conclure que pour une
paire positive et une paire négative prises au hasard, la paire positive a64.7%de chance d'avoir
une similarité plus élevée.
Finalement, les auteurs utilisent les mesures de similarité pour produire un clustering des
maladies, et le comparent aux classes Disease Ontology sélectionnées auparavant. Ce clustering
comporte 198 clusters, et ils obtiennent alors une pureté moyenne par cluster de 0.575, et un
indice de Rand de0.828.
Ces diérentes études sur les réseaux de maladies montrent l'existence de liens entre les
dié-rents aspects d'une maladie : gènes responsables, symptômes et traitements. Ainsi, ces diseasomes
permettent la mise en évidence de la proximité de certains mécanismes des maladies étudiées,
an de parfaire les connaissances sur leur causes et de proposer des médicaments réutilisables
d'une maladie proche à l'autre.
Dans le document
Apport des ontologies de domaine pour l'extraction de connaissances à partir de données biomédicales
(Page 54-59)