Optimisation des paramètres de WGCNA - : Etude de la co-expression des gènes paralogues au sein

Chapitre 4 : Etude de la co-expression des gènes paralogues au sein de différents

2.1. Optimisation des paramètres de WGCNA

Nous avons employé WGCNA pour réaliser l’inférence d’un réseau de co-expression de gènes à partir de tissus cérébraux humains (« Weighted Gene Correlation Network Analysis ») (Langfelder & Horvath 2008). Cette méthodologie permet de générer des réseaux de co-expression et d’identifier des modules (groupes) de gènes co-exprimés. Elle consiste en l’enchaînement de plusieurs traitements de données :

1) Une mesure de corrélation est calculée pour chaque paire de gènes afin d’estimer la similarité de leur profil d’expression ;

2) Une matrice d’adjacence est générée à partir de ces mesures de corrélation : ' = V#_,0X

3) A partir de la matrice d’adjacence, une matrice de recouvrement topologique (TOM- « Topological Overlap Matrix ») est construite en convertissant les valeurs de corrélation de la matrice d’adjacence en valeurs représentatives de la similarité de connectivité Y entre paires de gènes :

Z = [ _,0]

4) Une classification hiérarchique des gènes est obtenue à partir des valeurs de la matrice TOM.

5) L’identification des modules de co-expression est réalisée par la découpe de l’arbre de classification hiérarchique des gènes.

WGCNA (Langfelder & Horvath 2008) permet de regrouper les gènes en modules à partir de la similarité de leur profil d’expression. La méthode WGCNA définie un module 0 (ou « grey ») contenant les gènes considérés comme étant non co-exprimés du fait d’une très faible variabilité au travers de tous les échantillons. Nous supprimons les gènes avec une variance nulle et ceux ayant une expression très faible sur la totalité des échantillons. Ce filtre permet donc de limiter la taille de ce module « grey » et d’éviter que ces gènes aux profils d’expression peu informatifs soient intégrés dans des modules de co-expression.

Calcul de la matrice d’adjacence :

La matrice TOM permet de construire l’arbre de la classification hiérarchique des gènes à partir duquel sont identifiés les modules de co-expression. Le calcul de cette matrice est basé sur la corrélation de Pearson entre chaque paire de gènes au travers de tous les échantillons. La matrice peut être signée ou non signée. La méthode signée prend en compte uniquement les corrélations positives alors que la méthode non signée prend en compte les corrélations et les anti-corrélations de la même façon. Les valeurs d’adjacence sont donc des valeurs continues. Le calcul de la valeur d’adjacence entre deux gènes i et j est le suivant pour une matrice non signée :

#₀ = |^ & #& )|_

Avec β, le paramètre de seuillage doux utilisé pour respecter une topologie de réseau invariant d’échelle.

Paramètre de seuillage doux β:

WGCNA fait que la majorité des gènes sont faiblement connectés entre eux du point de vu de la co-expression et que seulement un petit nombre de gènes est très connecté. Cette hypothèse est la traduction au niveau des réseaux de co-expression de l’idée que les gènes interagissent et sont organisés suivant un réseau invariant d'échelle (« scale free »).

La connectivité d’un gène correspond à la somme des valeurs d’adjacence de chaque paire du gène i avec tous les autres gènes u :

94 Y = ` #_a

Plus précisément, il faut que la fréquence de la connectivité k, au travers des gènes, F(k), soit inversement proportionnelle à Yb_{(avec α un nombre réel positif), ce qui se traduit}

par une proportionnalité entre log(F(k)) et log(k). Le critère à respecter est donc le suivant:

= ^ & 5 _c Y , _cd Y e8 > 0.8

Dans WGCNA, la recherche des modules co-exprimés est faite en imposant de respecter une topologie de réseau invariant d’échelle (« scale free »). Le paramètre de seuillage doux β introduit dans le calcul de la matrice d’adjacence pour contraster les faibles et les fortes valeurs de corrélation de la matrice A peut permettre d’obtenir une telle topologie de réseau lorsqu’il est choisi de façon optimale. L’estimation de ce paramètre de seuillage doux est effectuée avec la fonction « pickSoftThreshold » du package « WGCNA » sous R.

Calcul de la matrice TOM :

La mesure (ou matrice) de recouvrement topologique a été introduite (Ravasz 2002) pour rendre compte de la similarité de connectivité (ou inter-connectivité) entre deux gènes. Cette mesure empirique de l’inter-connectivité entre gènes est reprise dans de nombreuses études. Elle se montre robuste pour l’estimation de la co-expression dans des contextes ou le bruit sur les données ne permet pas d’estimer précisément toutes les connections gène à gène. La matrice TOM est essentiellement une covariance sur les valeurs d’adjacence construites précédemment.

Le calcul des valeurs [ti,j ]de la matrice TOM dépend des valeurs d’adjacence, aij de la paire de gènes (i,j) et de la connectivité (ki et kj) des gènes i et j :

0 = i ∑ #_a a. #_a0+ #₀

mindY , Y₀e + 1 − #₀^{; 6 6 ≠ 7} 1 ; 6 6 = 7

Paramètres Cuttree:

Le paramètre Cuttree correspond à la hauteur à laquelle l’arbre de la classification hiérarchique des gènes est coupé. Les clusters obtenus correspondent à des modules de co-expression initiaux qui pourront ensuite être sub-divisés. La racine du cluster devra donc être en dessous de la valeur du Cuttree pour que le cluster soit considéré comme un module de co-expression.

Paramètres Deepsplit :

La coupure de l’arbre au niveau du Cuttree a permis de construire les modules de co-expression initiaux. Ces modules peuvent ensuite être sub-divisés en sous-modules emboités. Le paramètre Deepsplit permet de contrôler la sensibilité de la détection des modules. Plus la valeur du Deepsplit est élevée, plus la sensibilité de la détection des modules est élevée et plus la taille des modules sera petite.

Afin d’identifier les modules, tous les clusters possibles de l’arbre de la classification hiérarchique sont testés en partant des plus petits clusters (feuilles de l’arbre) jusqu’aux plus gros (valeur du Cuttree) selon une approche « bottom-up ». A chaque cluster est associée une moyenne m̅ (moyenne des dissimilarités des paires de gènes appartenant au cluster) et un gap g (différence entre m̅ et la hauteur dans l’arbre de la jonction du cluster avec le reste de l’arbre). Pour identifier les modules il faut définir un dmax et un

gmin. Pour qu’un cluster soit considéré comme un module, son m̅ ne doit pas être supérieur à dmax et son g doit dépasser gmin. Le Deepsplit va donc jouer sur les paramètres dmax et gmin Plus la valeur du Deepsplit est grande, plus la valeur du dmax sera grande et plus la valeur du gmin sera petite; ainsi, un cluster sera plus facilement considéré comme un module de co-expression et il sera donc de plus petite taille. Cela signifie également que plus les modules sont petits, plus la co-expression des gènes du module est forte.

Caractérisation d’un module :

Pour chaque module, un « eigengene » est calculé, correspondant à la première composante principale de la matrice de variance-covariance établie à partir des valeurs d’expression des gènes du module. Cette dernière étape peut permettre de faire à nouveau une classification hiérarchique mais à partir des valeurs des « eigengenes » afin de regrouper les modules qui ont des profils d’expression très similaires. L’étape de

regroupement est une option par défaut (« Merge »).

2.2.Données d’expression de gènes

Les données d’expression de gènes utilisées pour l’inférence des réseaux de co-expression sont celles du consortium GTEX filtrées (Les gènes avec une moyenne d’expression par tissu < 0.1 RPKM pour tous les tissus et avec une variance d’expression

nulle au travers des tissus sont éliminés), log-transformées (log2(RPKM + 1)) et ajustées

(effets techniques et biologiques) (voir Méthode Chapitre 3). Les gènes pris en compte sont uniquement les gènes paralogues (10335 gènes).

La matrice de données utilisée dans WGCNA est : = V _W1X

où g correspond à l’indice des gènes paralogues (10335 gènes) et s correspond à l’indice de tous les échantillons des 13 tissus cérébraux (1259 échantillons).

2.3.Familles de gènes

Les familles de gènes comparées aux modules de co-expression produits par WGCNA sont celles définies dans la section Méthode du Chapitre 2.

Dans le document Expression tissulaire des gènes paralogues : application au cerveau humain et à son état pathologique (Page 95-99)