• Aucun résultat trouvé

1.5 Contexte biomédical et applications

1.5.2 Médecine fondée sur les réseaux et diseasomes

La médecine fondée sur les réseaux, ou network-based medicine, repose sur la représentation

de données biologiques sous forme de graphes pour la découverte de connaissances biomédicales

[Barabási et al., 2011]. Ainsi, l'étude topographique de réseaux de maladies connectées entre

elles par des gènes communs, des interactions protéines-protéines ou des similarités sémantiques

pourraient mener à l'identication des causes de ces maladies, ou la réutilisation d'un médicament

contre une nouvelle maladie.

On s'intéressera ici aux diseasomes, c'est-à-dire à des graphes de maladies dans lesquels

les liens dénotent une similarité entre deux maladies. Diérentes approches pour la construction

d'un diseasome ont été proposées, fondées sur diérents critères de similarité. On dénira d'abord

quelques notions de bases sur la théorie des graphes.

Dénition 32. Un graphe simple,Gest déni comme un ensemble de n÷udsV ( vertices) et un

ensemble d'arêtesE ( edges) représentées sous la forme d'une paire de noeuds, tel queE ⊆V×V.

Les diseasomes utilisent fréquemment des graphes dont les n÷uds représentent deux types

d'objets, comme par exemple des maladies et des gènes. Il est courant dans ce cas que ce type

de graphe présente des arcs uniquement entre un n÷ud gène et un n÷ud maladie. Un tel graphe

est alors appelé graphe bipartie.

Dénition 33. Un graphe G= (V, E) est dit bipartie s'il existe deux ensembles disjoints V

1

et

V

2

tels que V

1

∪V

2

= V, et E∩(V

1

×V

1

∪V

2

×V

2

) = ; c'est-à-dire, qu'il existe deux

sous-ensembles disjoints complémentaires deV, tels qu'aucune arête ne lie deux éléments d'un même

de ces sous-ensembles.

The Human Disease Network Dans [Goh et al., 2007], Goh et al. proposent le Human

Disease Network, un graphe représentant la proximité génétique entre maladies. Ils construisent

d'abord, à partir d'une liste d'associations entre gènes et maladies extraite d'OMIM, un graphe

bipartie ayant pour n÷uds, d'une part les gènes, d'autre part les maladies, et où une arête

représente l'association entre un gène et une maladie.

Ce graphe bipartie permet ensuite la construction du Human Disease Network, un graphe où

les n÷uds représentent des maladies, et où un arc(d

i

, d

j

)représente le fait qued

i

etd

j

partagent

un gène responsable. Les auteurs observent dans ce graphe quelques n÷uds fortement connectés

formant des hubs représentant des classes de maladies, et ce, bien que le graphe soit généré sans

connaissance a priori de ces classes. C'est le cas par exemple des diérents cancers, fortement

connectés entre eux par les nombreux gènes associés à de nombreux types de cancers.

Un Disease Gene Network est également construit à partir du graphe bipartie initial : les

n÷uds y représentent des gènes, et les arcs (g

i

, g

j

) représentent le fait que g

i

et g

j

sont

respon-sables d'une même maladie. Ce graphe propose une vue complémentaire des données à celle du

Human Disease Network, et on y retrouve également certains hubs, par exemple celui des gènes

responsables de cancers.

Les auteurs analysent la topologie des deux graphes obtenus, par rapport à des graphes

générés à partir de données aléatoires. Ils observent alors que la topologie du Human Disease

Network et Gene Disease Network dièrent signicativement de ce qui serait attendu au hasard

(p < 10

4

). Le Human Disease Network possède également près de 8 fois plus de liens entre

maladies d'une même classe que des graphes produits à partir de données aléatoires.

Phenotypic Disease Network Dans [Hidalgo et al., 2009], Hidalgo et al. proposent le

Phe-notypic Disease Network pour représenter la comorbidité de maladies, identiées par des codes

ICD-9-CM. Ils utilisent les données du système d'assurances fédéral américain Medicare

[Lau-derdale et al., 1993, Mitchell et al., 1994] pour identier des maladies co-occurant fréquemment

dans un échantillon de plus de 30 millions de patients. Le système Medicare étant avant tout

destiné aux patients de plus de 65 ans, les auteurs notent que le Phenotypic Disease Network

n'est pas représentatif de la population globale.

An de quantier la comorbidité de deux maladies, les auteurs utilisent le coecient de

corrélation de Pearson (φ) [Pearson, 1895] et le Risque Relatif (RR) [Copeland et al., 1977].

Le Risque Relatif calculé entre deux maladies X etY équivaut au ratio entre le risque d'avoir

la maladie X si l'on a Y et le risque d'avoir la maladie X dans l'ensemble de la population

étudiée

8

. Chacune de ces mesures de la comorbidité présente des biais. Le risque relatif

sur-estime la comorbidité des maladies rares et sous-sur-estime celle des maladies communes, tandis

que le coecient de corrélation de Pearson estime correctement la comorbidité de maladies de

fréquences similaires mais sous-estime la comorbidité de maladies de fréquences très diérentes

[Hidalgo et al., 2009].

Ainsi, les auteurs construisent un Phenotypic Disease Network pour ces deux mesures,

puis-qu'elles présentent des avantages et inconvénients complémentaires. Ils constatent que les valeurs

de risque relatif calculées sont similaires à celles obtenues par des études de suceptibilité

géné-tique. Les deux graphes construits présentent certaines similarités : par exemple, la proximité

entre Poisoning by drugs & toxic substances et Psychoses et Neurotic disorders (voir Figure 1.11).

Par ailleurs, on peut observer dans le graphe une bonne répartition des maladies par rapport à

leur classe ICD-9-CM de premier niveau.

Certains faits intéressants peuvent être extraits du Phenotypic Disease Network : la

connec-tivité d'une maladie dans le graphe est corrélée avec sa mortalité. Les auteurs démontrent que

cette corrélation n'est pas seulement due au fait que un plus grand nombre de diagnostics puisse

être corrélé avec un plus grand risque de mortalité. Au contraire, le nombre de visites chez un

praticien et le nombre de diagnostics sont négativement corrélés à la mortalité. Le Phenotypic

Disease Network permet donc de mettre en évidence avec une haute comorbidité sont associées

à une plus haute mortalité.

Human Symptoms-Disease Network Pour les praticiens, les symptômes sont les

mani-festations les plus visibles d'une maladie. [Zhou et al., 2014] proposent donc de construire un

diseasome se basant sur la similarité des symptômes des maladies. Les symptômes sont extraits

des métadonnées MeSH (Medical Subject Headings) de PubMed [Wheeler et al., 2007, HJ and

G, 1994], un moteur de recherche bibliographique répertoriant la littérature biomédicale. Sur un

échantillon de plus de 7 millions de documents, les auteurs extraient147978liens entre4219

ma-ladies et322symptômes. Chaque maladie est alors représentée par un vecteur de symptômes, en

8. On notera que le risque relatif est symmétrique :P(X|Y)/P(X) =P(Y |X)/P(Y) =P(X∩Y)/P(X)P(Y)

1.5. Contexte biomédical et applications

Figure 1.11 Deux versions du Phenotypic Disease Network, le premier (A) construit à partir

du Risque Relatif, le second (B) construit à partir du coecient de corrélation de Pearson. Les

couleurs de chaque n÷ud représentent une classe du premier niveau de la classication

ICD-9-CM. Source : [Hidalgo et al., 2009]

utilisant une pondération tf-idf, et leurs similarités deux-à-deux sont calculées comme le cosinus

de ces vecteurs.

Les auteurs construisent également un graphe liant entre eux des maladies sur la base des

interactions entre les protéines produites par leur gènes responsables : deux maladies sont liées si

un de leur gène produit une protéine interagissant avec une protéine d'un gène de l'autre maladie,

ou s'il existe une troisième protéine avec laquelle les deux autres ont une interaction. A fortiori,

deux maladies sont liées si elles partagent un gène en commun.

Les auteurs comparent ce graphe au graphe obtenu par le calcul des similarités phénotypiques.

Ils observent une corrélation entre les interactions protéine-protéine des gènes de deux maladies

et la similarité de leurs phénotypes. De même, il existe une corrélation entre les gènes partagés

par deux maladies et leur similarité.

PhenUMA PhenUMA [Rodríguez-López et al., 2014] est une application web permettant

la visualisation de réseaux de données biologiques mettant à prot les méthodes de similarité

sémantique ainsi que les données sur les maladies génétiques et les interactions entre gènes.

Les auteurs calculent les similarités phénotypiques des diérents gènes et maladies en

appli-quant la mesure de similarité de Resnik, aggrégée avec la fonction Best-Match Average, à des

annotations de phénotypes exprimées dans le vocabulaire de l'ontologie HPO. Ils calculent

éga-lement les similarités fonctionnelles des gènes par la même méthode en utilisant les annotations

GO des gènes.

PhenUMA propose alors de visualiser et d'interroger plusieurs types de graphes : graphe de

maladies, graphe de gènes, fondés respectivement sur la similarité des annotations HPO et GO,

interactions des protéines de deux gènes, ou sur les gènes partagés par deux maladies.

Diseasome fondé sur l'interactome La network-based medicine peut également être utilisée

pour évaluer la proximité de maladies et de médicaments. [Guney et al., 2016] proposent d'estimer

pour des paires médicament-maladie, l'ecacité de ce médicament contre cette maladie. Pour

cela, les auteurs proposent d'explorer un graphe représentant les associations entre gènes ou

protéines

9

et maladies, les protéines ciblées par les médicaments (par des liens

médicament-protéine) et les interactions entre les protéines.

Ce graphe permet la quantication de la proximité d'un médicament à une maladie : pour une

paire médicament-maladie, on peut calculer la distance en nombre d'arcs dans le graphe entre

une protéine ciblée par le médicament et une protéine impliquée dans la maladie. Les auteurs

proposent 4 mesures de proximité entre un médicament et une maladie sur la base de cette

distance :

closest : moyenne des distances, pour chaque protéine cible du médicament, à la protéine

de la maladie la plus proche ;

shortest : moyenne des distances, entre chaque paire protéine cible et protéine de la

maladie ;

kernel : similaire à shortest, mais une pondération exponentielle donne plus d'importance

dans le calcul de la moyenne aux chemins les plus courts ;

centre : moyenne des distances, pour chaque protéine cible du médicament, au centre

topologique des protéines de la maladie ;

Chaque distance calculée pour une paire médicament-maladie est ensuite comparée à une

distribution aléatoire de la même distance calculée pour un ensemble de protéines cibles et

un ensemble de protéines de la maladie pris au hasard (mais de même cardinalités que ceux

1.5. Contexte biomédical et applications

Figure 1.12 Calcul de la proximité entre un médicament et une maladie avec la mesure closest.

A gauche, le graphe des interactions de gènes ou protéines, où sont représentés les chemins entre

chaque cible du médicament et la protéine de la maladie la plus proche. A droite, le calcul de

la distribution de la distance pour des cibles et protéines de maladies randomisées, ainsi que le

calcul nal de la proximité médicament-maladie en nombre d'écarts-types. Source : [Guney et al.,

2016]

correspondants à la paire médicament-maladie en question). En particulier, les auteurs calculent

le nombre d'écarts-types de la distance calculée pour la paire par rapport à la distribution des

distances randomisées. La Figure 1.12 illustre le calcul de la proximité entre un médicament et

une maladie avec la mesure closest.

Les auteurs évaluent leur diérentes mesures de proximité sur l'ensemble des paires

médicament-maladie de leur jeu de données, en essayant de distinguer les paires positives, c'est-à-dire

correspondant à une indication connue, des autres considérées comme négatives. Les paires

médicament-maladie sont alors classées en fonction de leur proximité relative à la proximité

randomisée, permettant de calculer l'aire sous la courbe ROC. Les auteurs concluent que la

me-sure closest est la plus performante avec une aire sous la courbe de0.66, ce qui semble indiquer

qu'il n'est pas nécessaire pour un médicament d'avoir des cibles proches de toutes les protéines

d'une maladie pour être ecace contre cette maladie. De plus, les paires associant un

médica-ment et une maladie proches sont sur-représentées dans les essais cliniques (p < 10

8

). Ainsi,

cette approche semble adéquate pour le classement ou la découverte de médicaments candidats

pour des essais cliniques.

Diseasome fondé sur la similarité sémantique des phénotypes Un diseasome peut

éga-lement être construit à partir d'une similarité sémantique. [Hoehndorf et al., 2015] proposent un

diseasome construit à partir de plus de 6000 maladies. Chacune de ces maladies est associée à un

ensemble de phénotypes extraits par fouille de texte sur plus de 5 millions de résumés d'articles

MEDLINE [US NLM, 2018]. Ces phénotypes sont des classes de l'ontologie MonDO [Mungall

et al., 2017], permettant la comparaison sémantique de ces maladies. Ces annotations de

mala-die ont été évaluées par comparaison aux phénotypes décrits dans OMIM, puis ont été mises à

disposition librement

10

.

Les auteurs utilisent la mesure de similarité sémantique SimGIC [Pesquita et al., 2007] et

l'ontologie MonDO pour calculer la similarité des maladies. Les paires de maladies sont alors

classées en fonction de leur similarité. Le diseasome est construit comme le graphe dont les

n÷uds sont les maladies et les arcs sont les0.5%paires de maladies à la similarité la plus élevée.

Les auteurs conduisent ensuite trois évaluations des similarités calculées, et par extension du

diseasome généré à partir de cette similarité. Ils évaluent d'abord le classement par similarité

par rapport à un ensemble de 22 classes de maladies de haut niveau extrait de Disease Ontology

[Schriml et al., 2011]. Pour chaque maladie d, le classement des autres maladies d

i

par rapport

à leur similarité à dest évalué par l'aire sous la courbe ROC, où une maladie d

i

est considéré

comme positive si elle partage une classe Disease Ontology avec d.

Ils évaluent ensuite le même classement par rapport aux médicaments partagés par des

mala-dies. Pour l'ensemble des paires de maladies(d

1

, d

2

), cette paire est considérée positive si il existe

un médicament indiqué pour traiter d

1

et d

2

. Les indications de médicaments sont tirées de la

base de données SIDER 2 [Kuhn et al., 2015]. Cette évaluation permet de conclure que pour une

paire positive et une paire négative prises au hasard, la paire positive a64.7%de chance d'avoir

une similarité plus élevée.

Finalement, les auteurs utilisent les mesures de similarité pour produire un clustering des

maladies, et le comparent aux classes Disease Ontology sélectionnées auparavant. Ce clustering

comporte 198 clusters, et ils obtiennent alors une pureté moyenne par cluster de 0.575, et un

indice de Rand de0.828.

Ces diérentes études sur les réseaux de maladies montrent l'existence de liens entre les

dié-rents aspects d'une maladie : gènes responsables, symptômes et traitements. Ainsi, ces diseasomes

permettent la mise en évidence de la proximité de certains mécanismes des maladies étudiées,

an de parfaire les connaissances sur leur causes et de proposer des médicaments réutilisables

d'une maladie proche à l'autre.