Un exemple d’application - Détection de communautés

2.5 Détection de communautés

2.5.4 Un exemple d’application

Les contraintes observées Nous avons testé les approches WGCNA et spectrale sur différents jeux de données d’expression réels, ce qui nous a permis d’éprouver les limites de ces deux approches pour l’analyse des réseaux de co-expression de gènes. Les données d’expression sont très volumineuses (plusieurs milliers de gènes) et peuvent contenir une très grande quantité de dimensions non informatives dans le sens où les gènes sur ces dimensions interagissent très peu avec les autres gènes.

Avec l’approche spectrale, le calcul des éléments propres de la matrice laplacienne qui repré- sente un grand graphe (beaucoup de sommets) peut s’avérer être trop coûteux en temps si la matrice, et donc le graphe, ne sont pas suffisamment creux. Dans ce cas, il est possible d’estimer un graphe creux par λ ou K voisinage, mais le problème du choix de la valeur du paramètre reste difficile et peut largement influencer le résultat final (communautés détectées). Un autre inconvénient de l’approche spectrale est sa sensibilité en présence de dimensions non informatives qui ne peuvent être distinguées de celles qui sont informatives. La nécessité de fixer a priori le nombre de communautés recherchées constitue également un inconvénient majeur.

Avec l’approche WGCNA, il est difficile de détecter des communautés, entre lesquelles et à l’intérieur desquelles les densités sont hétérogènes, ce qui est en pratique un cas très courant. Les poids des liens entre les gènes sont estimés par les mesures de co-expression élevées à la puissance β, mais le choix d’une unique valeur pour le paramètre β n’est pas justifié quand il existe des zones de densité hétérogènes sur le graphe. Une autre difficulté est celle de l’identification des communautés à partir de l’arbre de classification (dendrogramme). Des algorithmes ont été proposés pour détecter automatiquement les communautés et exclure de l’analyse les dimensions non informatives, mais ils nécessitent de fixer un certain nombre de paramètres et sont sensibles au choix de ces paramètres.

Un exemple

Figure 2.2 – (a) Représentation (heatmap) de la matrice S. (b) Représentation des classes formées

avec l’approche spectrale pour un partitionnement en 2, 3 et 4 classes. (c) Représentation des classes formées avec l’approche WGCNA en coupant l’arbre avec l’algorithme « Dynamic Tree » pour une hauteur maximale d’agrégation de 0.99 et de 0.999. La couleur grise caractérise les éléments exclus de l’analyse (non informatifs). (d) Dendrograme obtenu avec l’approche WGCNA. (e) Représentation des 6 plus petites valeurs propres de Lrw.

Nous avons construit un exemple simple de matrice d’association symétrique et définie par blocs, telle que, les mesures d’associations à l’intérieur et entre les communautés soient hétéro- gènes et qu’un certain nombre d’éléments soient non informatifs :

S =      S1 S12 S13 S14 S21 S2 S23 S24 S31 S32 S3 S34 S41 S42 S43 S4      .

Chaque bloc est de dimensions 100 × 100. On crée trois communautés composées chacune de 100 éléments et un groupe supplémentaire de 100 éléments non informatifs. Les mesures d’association

à l’intérieur des communautés sont représentées dans les blocs diagonaux S1, S2 et S3.

Chacun de ces blocs est défini de façon à faire apparaître un petit groupe d’éléments entre lesquels les mesures d’association sont largement plus elevées que la valeur moyenne des associations dans le bloc, de façon à mimer la propriété d’invariance d’échelle des réseaux d’interaction.

Les coefficients s(k)_ij à l’intérieur du bloc S_k sont définis pour tout k = 1, 2, 3 et pour tout

i, j ∈ {1, 2, ..., 100} par s(k)_ij = min(α(k)_i , α(k)_j ) si i 6= j, où α_i(k) = r_k+ 0.4 ×1 −₁₀₀i 3, et par

s(1)_ij = 1 si i = j.

En fixant r1 = r2 = 0.61 et r3= 0.31, les mesures d’association à l’intérieur du bloc S3 sont

plus faibles que celles dans les blocs S₁ et S₂. Les blocs extra diagonaux sont définis par des

matrices constantes : les coefficients des blocs S₂₃= S₃₂ sont fixés à 0.6, et ceux des autres blocs

extra diagonaux à 0.3. Pour le bloc d’éléments non informatifs S4 on fixe les coefficients extra

diagonaux à 0.3 et ceux sur la diagonale à 1. La matrice S de dimension 400 × 400 ainsi définie, est représentée sur la Figure 2.2.

Pour tester l’approche spectrale, nous avons construit un graphe complet de matrice d’adja-

cence W : w_ij = s_ij pour tout i 6= j et w_ii= 0 pour tout i, et nous avons partitionné l’ensemble

des sommets du graphe en 2, 3 et 4 classes à partir des vecteurs propres de Lrw. Pour éviter que

l’algorithme des k-moyennes ne converge vers un optimum local, nous l’avons lancé 100 fois avec des initialisations différentes et retenu le meilleur regroupement.

Pour l’approche WGCNA, les coefficients de la matrice d’adjacence du graphe ont été définis

par les mesures d’associations élevées à la puissance β : wij = sβij pour tout i 6= j et wii= 0 pour

tout i. Le paramètre β = 9 a été choisi selon les critères proposés par les auteurs (distribution des degrés proche de celle d’une loi de puissance et degré moyen suffisamment élevé). L’algorithme « Dynamic Tree » a été utilisé pour extraire les classes sur le dendrogramme en testant deux valeurs (0.99 et 0.999) pour le paramètre de la hauteur maximale d’agrégation.

Les résultats obtenus avec les deux méthodes sont représentés sur la Figure 2.2. L’approche spectrale ne permet pas d’identifier directement les éléments non informatifs. Pour un partitionnement en 2 ou 3 classes, les deux premières communautés les plus denses (intra et inter) sont regroupées dans une seule communauté. Il faut partitionner en 4 classes pour avoir une classe d’éléments par communauté, avec quand même des erreurs de classification : les éléments qui ont les mesures d’association les plus faibles dans la deuxième communauté (resp. dans la troisième communauté) sont classés avec les éléments de la première communauté (resp. avec les éléments non informatifs). A noter, également, que l’heuristique du trou spectral suggère de ne pas partitionner l’ensemble des sommets (trou spectral entre la valeur propre 1 et 2), ou alors en 2

classes seulement (petit saut entre les valeurs propres 2 et 3). Avec l’approche WGCNA, les deux première classes les plus denses sont identifiées mais quelques éléments de la première classe sont néanmoins placés dans la deuxième. La méthode exclut les éléments non informatifs (en gris sur le graphique) mais beaucoup d’éléments (ou tous les éléments, en fonction du paramètre de la hauteur maximale d’agrégation choisi) de la communauté la moins dense sont considérés comme étant également non informatifs. Les hauteurs d’agrégations des éléments de la communauté la moins dense sont très proches de celles des éléments non informatifs (effet du choix d’un β unique pour définir le graphe).

Dans le document Développement d'outils statistiques pour l'analyse de données transcriptomiques par les réseaux de co-expression de gènes (Page 60-63)