• Aucun résultat trouvé

3.2.4 D´efinitions et propri´et´es des r´eseaux biologiques

En amont de la description de notre strat´egie d’int´egration des donn´ees

prot´eomiques, transcriptomiques et ph´enotypiques, nous allons d´efinir les principaux

termes qu’il est possible de rencontrer lors de l’utilisation de r´eseaux en biologie.

Sp´ecifions un graphe G= (V, E) o`u :

V = {v

1

, ..., v

p

} est un ensemble de nœuds (ou sommets) repr´esentant les

variables biologiques (g`enes, prot´eines, etc.) ;

E est un ensemble d’arˆetes repr´esentant les relations entre les diff´erents nœuds.

Tout d’abord, un r´eseau est d´efini comme ´etant connect´e(ou connexe) si, pour les

nœuds v

i

etv

j

deG, il existe une chaˆıne dev

i

vers v

j

, c’est-`a-dire une suite d’arˆetes

permettant d’atteindre v

j

`a partir dev

i

, comme repr´esent´e dans la Figure 3.1.

La densit´ed est d´efinie comme ´etant le nombre d’arˆetes dans le r´eseau divis´e par

le nombre de paires de nœuds dans le r´eseaux : d =

|E|

V(V−1)/2

. Elle est utilis´ee afin

de d´eterminer le taux de connexions (arˆetes) pr´esentes dans le r´eseau. Un r´eseau dit

dense pr´esente un nombre d’arˆetes proche du nombre maximal, alors qu’un r´eseau

dit parcimonieux poss`ede au contraire tr`es peu d’arˆetes.

Latransitivit´ed’un r´eseau est indiqu´ee par le nombre de triangles (entre variables)

pr´esents dans le r´eseau divis´e par le nombre de triplets de variables connect´ees par

au moins deux arˆetes. De fa¸con simplifi´ee, dans un r´eseau social, la transitivit´e

mesurerait la probabilit´e que deux de mes amis soient ´egalement amis. Lorsque la

transitivit´e est plus grande que la densit´e, cela indique que les nœuds ne sont pas

L’une des caract´eristiques ´el´ementaires d’un nœud est son degr´e(ou connectivit´e).

Celui-ci informe sur le nombre de relations que ce nœud poss`ede avec les autres

nœuds du r´eseau : d

i

= |{(v

i

, v

j

) ∈ E}|. Les nœuds ayant les plus forts degr´es

sont g´en´eralement appel´es hubs. La distribution des degr´es, {P(k)}

k

, correspond `a

l’ensemble des probabilit´es qu’un nœud ait exactement le nombre d’arˆetes k. En

g´en´eral, de nombreux r´eseaux rencontr´es en biologie suivent une scale-free topology,

dans laquelle la distribution des degr´es suit une loi de puissance P(k) ∝ k

γ

avec

γ > 0, o`u des nœuds avec de faibles degr´es (fr´equents) coexistent avec des nœuds

ayant de forts degr´es (rares).

En parall`ele au degr´e, la centralit´e (ou betweenness en anglais) d’un nœud est

d´efinie comme ´etant le nombre de plus courts chemins passant par ce nœud.

Typi-quement, la suppression d’un nœud avec une tr`es forte centralit´e m`ene `a une possible

d´econnexion du r´eseau, c’est-`a-dire que ce nœud est important pour la structure du

r´eseau.

La d´etection de modules, aussi appel´es clusters ou communaut´es, est l’un

des aspects importants lors de l’analyse de r´eseaux, c’est-`a-dire la d´etection de

groupes de nœuds (variables) ´etant fortement inter-connect´es entre eux

(Fortu-nato, 2010). La Figure 3.1 repr´esente un exemple sch´ematique de modules dans

un graphe. Il est possible d’observer tr`es facilement trois modules de nœuds dans

le graphe. Les modules sont des groupes de variables pouvant partager des

pro-pri´et´es communes et/ou jouant des rˆoles biologiques similaires. La d´etection de

modules dans un graphe poss`ede des applications concr`etes. Par exemple, dans les

r´eseaux d’interaction prot´eine-prot´eine, les communaut´es regroupent souvent des

prot´eines ayant les mˆemes fonctions dans la cellule (Spirin & Mirny, 2003; Chen

& Yuan, 2006), ou encore dans les r´eseaux m´etaboliques, les communaut´es

peu-vent ˆetre reli´ees `a des voies m´etaboliques sp´ecifiques (Guimer`a & Amaral, 2005).

Fortunato (2010) a r´ecemment propos´e une revue discutant de toutes les m´ethodes

existantes afin de d´eterminer la structure en clusters d’un graphe : il existe des

m´ethodes dites traditionnelles, comme le clustering hi´erarchique ou les k-means, des

m´ethodes d’algorithmes diviseurs o`u l’objectif est plutˆot de supprimer les arˆetes

inter-clusters que les arˆetes entre les paires de nœuds ayant une faible similarit´e,

modularit´e est d´efinie comme ´etant une mesure de la qualit´e d’un partitionnement

des nœuds d’un graphe en communaut´es (Newman & Girvan, 2004). Elle comprend

des valeurs entre -1 et 1, et elle augmente si la taille du graphe et/ou le nombre de

communaut´es bien s´epar´ees augmente. La modularit´e n’est pas comparable entre

graphes, mais est uniquement utilis´ee afin de d´eterminer et quantifier la structure

en communaut´es d’un graphe, car elle est d´ependante de la taille du graphe. Dans

les diff´erents articles propos´es au cours de cette th`ese, nous avons choisi de mettre

en œuvre des algorithmes utilisant la modularit´e. Les algorithmes de type greedy

techniques ont particuli`erement ´et´e utilis´es. Ils se basent sur des m´ethodes proches

de la classification hi´erarchique ascendante. Ils d´ebutent par une partition triviale

associant une classe `a chaque sommet du graphe, puis les classes sont fusionn´ees

de fa¸con gloutonne (´etape par ´etape afin d’obtenir une solution optimale globale

au probl`eme) en choisissant la meilleure fusion au sens d’un crit`ere adapt´e (ici, la

modularit´e). La proc´edure s’arrˆete quand plus aucune fusion n’est possible sans

d´egrader la modularit´e. Pour finir, ces algorithmes vont changer des sommets de

classe de fa¸con opportuniste en cherchant `a augmenter la modularit´e. C’est ce type

d’approche qui semblait donn´e les r´esultats statistiques les plus proches de la r´ealit´e

3.3 Article 2 : Voillet et al., En pr´eparation, 2016

Documents relatifs