Analyse du réseau de co-expression de gènes

Le principal objectif de l’analyse d’un réseau de co-expression de gènes est l’identification de communautés de gènes co-exprimés. Nous avons utilisé notre algorithme, basé sur la recherche

de noyaux, pour identifier des communautés de gènes co-exprimés sur le foie des patients « flo-

rinash ». La co-expression sij entre deux gènes i et j, avec i, j ∈ {1, 2, ..., p = 5405}, a été

mesurée par s_ij = (1 + r_ijspear) × 0.5, où r_ijspear est le coefficient de corrélation de Spearman entre

l’expression des gènes i et j sur l’échantillon de patients (N = 97). Identification des communautés

L’unique paramètre à fixer avec notre méthode est la taille minimale n d’un noyau. Nous avons choisi le paramètre n = 26 comme décrit dans le chapitre précédent (Figure 2.5 et 2.6), et ajouté l’ensemble des noyaux identifiés pour n = 10 qui disparaissent pour n = 26 (qui ne sont pas inclus dans un noyau).

Nous avons défini les communautés en les réduisant à leur noyau : les gènes en dehors des noyaux ont été exclus de l’analyse et les 1351 gènes restants sont répartis dans 42 noyaux ou communautés distinctes.

Les communautés identifiées contiennent en moyenne 32 gènes avec un minimum de 10 gènes et un maximum de 130 gènes.

A l’intérieur de chaque communauté, nous avons sélectionné le « hub » qui est le gène qui maximise la somme des mesures d’association avec les autres gènes de la communauté.

La matrice des corrélations de Spearman entre ces hubs ainsi que la taille des différentes communautés sont représentées sur la Figure 3.3. On observe quelques corrélations importantes entre les hubs, mais globalement ces corrélations sont assez faibles.

Figure 3.3 – Représentation de la matrice des corrélations de Spearman entre les hubs des communautés

Analyses d’enrichissement dans les communautés Les annotations GO des processus biologiques associés aux 1351 gènes de nos communautés ont été recherchées dans la base de données « GO.db », et celles des annotations KEGG pour les voies métaboliques ont été re- cherchées dans le base de donnée « KEGG.db ». Ces deux bases de données sont disponibles à l’adresse www.bioconductor.org et peuvent être directement chargée dans R. Plus de la moitié des gènes (Table 3.4) ont pu être associés à au moins un processus biologique (GO) et un peu moins d’un tiers des gènes ont été identifiés comme étant impliqués dans une voie métabolique (KEGG).

nombre de gènes annotés

GO 711

KEGG 369

Table 3.4 – Nombre d’annotations GO et KEGG associées aux gènes

Aucune annotation GO n’a été trouvée dans les communauté numérotées 30 et 42, et aucune annotation KEGG dans les communautés 29, 30, 32, 38, 39, 42.

Nous avons recherché à l’intérieur de chacune des communautés les annotations sur-représentées à l’aide du test exact de Fisher unilatéral, puis ajusté les pvaleur des tests par la méthode des FDR (False discovery rate) de façon à contrôler le taux d’erreur de première espèce. Nous utiliserons ces résultats par la suite pour donner un sens fonctionnel au communautés de gènes.

Diagnostic pour la multi-colinéarité L’apprentissage supervisé pour expliquer un caractère d’intérêt (la fibrose par exemple) à partir des données transcriptomiques est d’autant plus délicat quand il y a de la redondance, des données non informatives (bruitées) et un très grand nombre de gènes. La sélection des hubs permet de réduire considérablement la taille des données (42 hubs pour 5404 gènes au départ), de supprimer la redondance, ainsi que les gènes non informatifs aux profils atypiques et faiblement associés avec les profils des gènes dans les communautés. Nous allons comparer par la suite notre méthode de sélection par les hubs avec celle de la régression parcimonieuse pour mettre en évidence les points forts de notre approche. En grande dimension (p >> N ) les méthodes de régression et de sélection classiques sont inenvisageables. Il est nécessaire de sélectionner un nombre raisonnable de variables explicatives avant d’estimer leurs effets sur la réponse. Le conditionnement de la matrice des corrélations entre les variables sélectionnées va déterminer la précision des estimations. Un mauvais conditionnement conduit à des estimateurs de fortes variances.

Pour l’exemple, nous avons sélectionné par régression lasso les 41 gènes les plus pertinents pour

expliquer la variable « clamp » et nous avons calculé l’indice de conditionnement Ic = λ_λmax_min, où

λmax et λmin sont respectivement la plus grande et la plus petite valeur propre de la matrice des

corrélations entre les gènes sélectionnés. Un mauvais conditionnement de la matrice est associé à

une valeur Ic très élevée (très problématique pour Ic> 1000). On obtient la valeur Iclasso= 135.

L’indice de conditionnement pour la matrice des corrélations entre les hubs vaut quant à lui

Ihub

c = 307 sachant qu’on a 42 hubs (une variable de plus que pour la sélection Lasso). Il est

supérieur à celui obtenu avec le lasso mais il reste raisonnable avec un nombre de prédicteurs supérieur (une variable en plus dans le modèle).

Pour un modèle de régression linéaire y = Xβ + , avec X la matrice des prédicteurs de

dimension N × p suposée centrée et réduite, la matrice de variance-covariance Σ_β des coefficients

du modèle s’écrit : Σ_β = σ2(X0X)−1= σ 2 NR −1 ,

où σ2 est la variance des résidus du modèle, et R = _N1X0X la matrice des corrélations empiriques

(données centrées-réduites). Ainsi, les variances σ_β2

j des coefficients du modèle (diagonale de Σβ)

sont proportionnelles au éléments diagonaux (R−1)jjqui ne sont autre que le carré d’un coefficient

de corrélation multiple :

(R−1)_jj = 1

1 − R2_j,

où R2_j est le carré du coefficient de corrélation multiple de Xj avec les p − 1 autres prédicteurs,

également appelé coefficient de détermination de la régression linéaire de la variable Xj sur les

autres variables. Cette valeur (R−1)_jj est appelé le facteur d’inflation de la variance (VIF) de la

variable Xj. Sa valeur augmente avec la variance de l’estimateur ˆβj et quand elle est très élevée,

cela traduit un phénomène de multicolinéarité. Nous avons calculé ce VIF pour les données des hubs et les avons représentés sur la Figure 3.4.

Figure 3.4 – Représentation « barplot » des facteurs d’inflation de la variance des coefficients associés

aux hubs dans un modèle de régression.)

Pour le hub de la communauté numéro 42, le VIF est particulièrement élevé (égal à 22). En supprimant cette variable, on obtient un indice de conditionnement, pour la matrice des

corrélations entre les hubs restants, I_chub= 197. A nombre de variable égal, on est très proche de

la valeur obtenue pour les variables sélectionnées par le Lasso. Le conditionnement de la matrice des corrélations entre les hubs ne sera pas problématique pour la modélisation d’un caractère d’intérêt à partir des hubs.

3.4 Recherche de marqueurs génétiques et exploration des

Dans le document Développement d'outils statistiques pour l'analyse de données transcriptomiques par les réseaux de co-expression de gènes (Page 131-135)