L’approche WGCNA - Détection de communautés

2.5 Détection de communautés

2.5.3 L’approche WGCNA

L’approche WGCNA pour Weighted Gene Co-expression Network Analysis a comme son nom l’indique, été proposée par Zhang et Horvath [70] pour la détection de communautés sur les réseaux de co-expression de gènes spécialement. Elle intègre des solutions pour répondre aux différentes problématiques posées à chaque étape de l’analyse : pour la modélisation du graphe à partir des données d’expression, pour la classification hiérarchique des sommets du graphe et pour l’extraction des communautés sur l’arbre de classification (dendrogramme). Comme précé- demment, nous faisons l’hypothèse que les communautés ne se chevauchent pas (disjointes). A la différence de l’approche spectrale, il sera possible avec l’approche WGCNA d’exclure certains éléments si ils sont trop éloignés (faible co-expression) des communautés, et dans ce cas, les communautés ne couvrent pas l’ensemble des éléments.

Modélisation du réseau de co-expression par un graphe invariant d’échelle La dé-

marche pour la modélisation du réseau de co-expression est a peine différente de celle que nous avons présentée dans la section 2.4. La première étape consiste à définir une matrice d’association

S entre les p gènes (S est symétrique, de dimensions p × p et à coefficients dans R+). Les sij

caractérisent la mesure de la co-expression pour tout couple de gènes, et classiquement, ils sont définis par la valeur absolue du coefficient de corrélation, de Pearson ou de Spearman, entre les profils d’expression des gènes.

Zhang et Horvath propose de modéliser le réseau, non pas à partir d’un graphe de λ-voisinage

ou de K-voisinage, mais par un graphe complet sur lequel les poids w_ij des arêtes, sont liés aux

mesures d’association s_ij par une fonction non linéaire, de façon à donner plus de poids aux

plus fortes associations, et à très peu considérer celles qui sont les plus faibles. En d’autres termes, il ne s’agit pas de seuiller globalement ou localement les valeurs d’association, mais de les transformer afin d’accentuer l’écart entre les plus grandes et plus petites valeurs. Pour tout

β ∈N∗, les coefficients wij de la matrice d’adjacence W du graphe sont définis par :

wij = sβij, ∀i 6= j et wii= 0, ∀i.

La mesure de co-expression sij est dans l’intervalle [0, 1] (valeur absolue des corrélations). Ainsi,

pour un paramètre β > 1, les poids wij des liens du graphe sont dans [0, 1] et convergent plus

rapidement vers 0 que les mesures de co-expression s_ij.

L’idée est de construire un graphe complet ayant la propriété d’invariance d’échelle, c’est à dire un graphe sur lequel la majorité des sommets ont des degrés faibles et seulement quelques sommets présentent des degrés élevés. Le paramètre β est choisi de façon à obtenir un graphe

Pk est la probabilité qu’un sommet soit de degré k. La validité de cette hypothèse peut être

verifiée par la qualité d’ajustement, au sens du R2 (variance expliquée par le modèle sur variance

à expliquer), du modèle de régression linéaire simple qui tente d’expliquer la variable log(P_k)

par la variable log(k). En pratique, pour W obtenue pour un β donné, on fixe L (L = 10, valeur

proposée par les auteurs) intervalles [a_l, al+1[ de même longueur et tels que min

i=1,2,...,p{di} ∈ [a1, a2[

et max

i=1,2,...,p{di} ∈ [aL, aL+1[ où les di =

jwij =Pj6=is β

ij sont les degrés des sommets. On calcule

pour tout l = 1, 2, ..., L, la probabilité p_l qu’un sommet soit de degré dans l’intervalle [a_l, al+1[

i.e. p_l = 1_pP

i1di∈[al,al+1[, et on ajuste un modèle de régression linéaire simple pour expliquer

le vecteur d’observation y = (log(p1), log(p2), ..., log(pL))0 ∈ RL par le vecteur d’observation

x = log(a1+a2 2 ), log( a2+a3 2 ), ..., log( aL+aL+1 2 ) 0

∈ RL_{. Si l’hypothèse d’invariance d’échelle se}

vérifie sur le graphe, on s’attend à avoir un modèle de qualité avec un R2 = var(ˆ_var(y)y) assez proche

de 1 (R2 ∈ [0, 1]). Parmi les valeurs de β qui sont satisfaisantes suivant le critère d’invariance

d’échelle, c’est la plus petite d’entre-elles qui est retenue, de façon à conserver un maximum

d’information sur le graphe. Il faut trouver un bon compromis entre un R2 le plus proche de 1

possible et un degré de connectivité moyen le plus élevé possible.

Définition d’une mesure de dissimilarité entre sommets du graphe L’information por-

tée par la matrice d’adjacence W nous renseigne (adjacence et poids des liens) sur les interactions entre les sommets pris deux à deux, c’est à dire sur les interactions directes. L’intérêt de modéliser un graphe pour l’identification de communautés est de replacer les éléments dans un système et de caractériser la proximité ou similarité entre les éléments en se basant non plus uniquement sur les interactions directes, mais en intégrant de l’information plus générale sur le positionnement des éléments dans le système. Par exemple, on peut considérer que deux sommets sont d’autant plus proches ou similaires qu’ils sont en forte interaction et qu’ils interagissent avec les mêmes autres sommets. L’information sur la ressemblance des voisinages des deux sommets est ainsi ajoutée à celle portant sur leur interaction directe. Ce type de mesure de similarité reposant sur la notion de chevauchement des voisinages fait sens dans le contexte des réseaux biologiques dans la mesure où deux éléments (deux gènes par exemple) qui partagent la même fonction au niveau cellulaire vont très certainement interagir avec les mêmes autres éléments [52].

Zhang et Horvath propose d’utiliser la mesure de similarité introduite par Ravasz et al. [52] dans le cas des graphes non pondérés en la généralisant au cas des graphes pondérés. La similarité

sG_i,j ∈ [0, 1] entre deux sommets i et j d’un graphe G de matrice d’adjacence W = (w_ij)_i,j est

définie par : sG_i,j = wij + P kwikwjk min(d_i, dj) + 1 − wij , ∀i 6= j et sG_ii = 1, ∀i

où di =Pjwij est le degré du sommet i. Deux sommets sont d’autant plus similaires (sij proche

de 1) qu’ils ont des liens de poids élevés avec les mêmes autres sommets et qu’ils sont eux-mêmes

connectés par un lien de poids élevé. Une mesure de dissimilarité dG

ij entre tout couple de sommets

du graphe se déduit directement de la mesure de similarité :

dG_ij = 1 − sG_i,j.

Classification des sommets du graphe La méthode de détection de communautés avec

matrice des dissimilarités DG= (dG_ij)i,j. La CAH est une méthode de classification itérative qui

fournit une hiérarchie de partition en créant à chaque étape une nouvelle partition obtenue par agrégation des deux éléments (sommets ou groupes de sommets) les plus proches sur la partition précédente, c’est à dire les deux éléments qui ont la plus faible valeur de dissimilarité. Les objets à partitionner sont ici les sommets du graphe.

Au départ, chaque sommet est isolé dans une classe et à l’étape suivante, les sommets ayant la plus faible dissimilarité sont regroupés dans une même classe. Pour les étapes suivantes, il est nécessaire de définir une méthode d’agrégation afin de pouvoir mesurer la dissimilarité entre un

sommet et une classe de sommets. La dissimilarité entre deux classes C₁ et C₂ de sommets (ou

entre une classe de sommet C1 et un sommet isolé C2= {j}, |C2| = 1) est définie dans l’approche

WGCNA par la moyenne des dissimilarités entre les éléments des deux classes (average linkage) :

dG_C₁_C₂ = 1 |C1||C2|

i∈C1,j∈C2

dG_ij.

A chaque itération de la CAH, la dissimilarité entre les différents éléments est calculée et les deux éléments (classes ou sommets isolés) qui ont la mesure de dissimilarité la plus faible sont regroupés. A la fin de l’algorithme l’ensemble des sommets sont regroupés dans une seule et même classe. Les partitions obtenues pour les différents niveaux d’agrégation (à chaque itération) peuvent être visualisées sur l’arbre de classification appelé dendrogramme.

Quand le nombre d’objets à partitionner est très important, il n’est pas toujours facile de choisir une partition parmi l’ensemble de celles obtenues car la lisibilité du dendrogramme n’est pas garantie. Choisir une partition revient communément à déterminer une hauteur constante à laquelle le dendrogramme est coupé. Le choix de cette hauteur reste à l’appréciation de l’utilisateur par l’observation de l’allure du dendrogramme. En coupant l’arbre à une hauteur constante, il n’est cependant pas possible d’extraire des classes entre lesquelles et à l’intérieur desquelles les dissimilarités peuvent être très hétérogènes. Un autre inconvénient de cette approche est qu’il n’est pas toujours facile pour l’utilisateur de choisir une hauteur de coupe. Quand le dendrogramme est très grand, il devient difficile d’apprécier correctement l’évolution des partitions sur celui-ci.

L’approche WGCNA intègre deux algorithmes différents pour identifier automatiquement les classes sur le dendrogramme et permettre la détection de classes pouvant apparaître à des hauteurs d’agrégation variables. [35, 36].

L’algorithme appelé « Dynamic Tree » analyse l’évolution de la séquence des hauteurs d’agré-

gation (dissimilarité), H = (h1, h2, ..., hp), pour tous les éléments rangés dans le même ordre que

celui du dendrogramme. La séquence H est normalisée par une valeur l : H∗ = H − l. Sur H,

toutes les hauteurs sont positives tandis que sur H∗, les h∗_i peuvent être négatifs pour les valeurs

les plus faibles de hi. La première valeur choisie pour le paramètre l est la hauteur moyenne des

éléments : l_m= 1_pPp

i=1hi. Si aucune classe n’a pu être détectée pour ce paramètre on augmente

la valeur progressivement, l = 1₂[lm+ min(H)], puis l = 1₂[lm+ max(H)]. La séquence H∗ est

analysée de façon à identifier les transitions entre valeurs positives et négatives. Si l’on observe

une suite h∗_i 1, h ∗ i2, ..., h ∗ ik d’éléments consécutifs de H

∗ _{qui prennent tous des valeurs négatives,}

c’est à dire que les dissimilarités entre éléments sont faibles, et que l’élément suivant h∗_i

k+1 est

positif (dissimilarité plus importante), les éléments h∗_i

1, h

∗

i2, ..., h

∗

et l’élément h∗_i

k+1 est considéré comme le premier élément d’une nouvelle classe. Des contraintes

sur la taille des différentes phases (phases positives et négatives) de la séquence H∗ sont ajoutées

pour permettre à l’utilisateur de contrôler l’espacement minimum (taille de la phase en début de classe sur laquelle les valeurs sont positives) entre deux classes et la taille minimale des classes. Chaque classe de sommets détectées par l’algorithme est ensuite analysée de façon indépendante. Une classe est associée à un sous-arbre du dendrogramme, et en réitérant l’algorithme sur cha- cun de ces sous-arbres, les classes peuvent être subdivisées en plusieurs classes. Le processus est réitéré jusqu’à ce que toutes les classes ne puissent plus être subdivisées.

L’autre algorithme, appelé « Dynamic Hybrid », analyse le dendrogramme de bas en haut. Un ensemble d’éléments sur une branche de l’arbre forme une classe si il répond à différentes conditions. Chaque classe doit avoir une taille minimale, contenir un sous-ensemble d’éléments fortement similaires (centres des classes) qui soit de taille suffisante. Les éléments au centre d’une classe doivent être suffisamment éloignés (dissimilaires) de ceux qui sont en périphérie, c’est à dire, de ceux qui ont les plus forts degrés de dissimilarité avec la classe. Ce deuxième algorithme est plus flexible que le premier mais il nécessite de fixer un plus grand nombre de paramètres et il est plus sensible au choix de ces paramètres.

Avec ces deux algorithmes, les éléments qui s’agrègent à des hauteurs excédant un seuil fixé sont considérer comme étant du bruit et sont exclus de l’analyse.

Dans le document Développement d'outils statistiques pour l'analyse de données transcriptomiques par les réseaux de co-expression de gènes (Page 57-60)