• Aucun résultat trouvé

Les réseaux sont une technique d’analyse utilisée dans de nombreux domaines, par exemple pour analyser les interactions entre groupes sociaux, en communication inter- net ou entre effecteurs biologiques. Les techniques d’analyse des réseaux permettent de mieux comprendre la structure et la dynamique d’interactions complexes. En biologie, certains des réseaux étudiés concernent par exemple les cellules, les protéines ou les gènes.

Dans le contexte des traits complexes, l’approche de réseau de gènes est intéres- sante, car elle permet de comprendre comment un groupe de gènes peut être régulé dans

le contexte d’un réseau biologique intégré [77, 78]. Bien que ces phénomènes soient encore mal définis, il existe des évidences suggérant l’existence de réseaux modulaires dans lesquels les gènes, les protéines, les métabolites et autres facteurs peuvent opérer en groupes plutôt que de façon isolée. Par exemple, certains groupes de gènes peuvent être régulés de façon coordonnée par des facteurs de transcription, des microARN, des changements dans la méthylation de l’ADN et/ou des phénomènes de remodelage de la chromatine. Ces types de mécanismes correspondent à des situations où des gènes sont organisés au sein de modules de co-expression. Suite au travail de pionnier de Eisen et al. [79], un nombre croissant d’études ont utilisé des données d’expression des gènes pour construire des réseaux de régulation fondés sur la co-expression de gènes [80–82]. Ces études ont permis de modéliser des réseaux d’expression de gènes. Ces résultats peuvent, entre autres, être représentés de façon graphique comme un ensemble de noeuds (gènes) reliés par des arêtes (relations entre les gènes). Par rapport aux réseaux de régulation, un réseau de co-expression ne tente pas de distinguer les interactions directes des in- teractions indirectes entre les gènes. De plus, un réseau de co-expression contient des informations entre gènes voisins qui sont généralement négligées dans des analyses de clustering. [83]. Un certain nombre d’études ont analysé les propriétés topologiques des réseaux de gènes [84, 85] et ont montré que les réseaux de modules co-exprimés ont des propriétés intéressantes. Une de celles-ci correspond au fait que leur architecture est considérée comme étant «scale free». Ceci veut dire que le réseau présente plusieurs connexions parallèles, de sorte que le nombre de connexions de chaque noeud se dis- tribue selon une loi de puissance [86, 87]. La figure 1.9 montre la différence entre un réseau «scale free» par rapport à un réseau aléatoire («random network»).

Une architecture de type «scale-free» a l’avantage fonctionnel suivant : lorsqu’un lien entre deux noeuds du réseau est détruit, il existe une route alternative pour connecter les deux noeuds. Ceci est une propriété importante pour un système biologique qui a be- soin d’être robuste, adaptable et efficace, pour survivre à des changements constants[89].

(a)

(b)

Figure 1.9 – a) Représentation de la naissance d’un réseau «scale free». À partir de trois noeuds connectés (en haut à gauche), un nouveau noeud (représenté par un cercle vide) est ajouté au réseau (en haut). Lors du choix de lier, les nouveaux noeuds préfèrent se fixer aux noeuds plus connectés, un processus connu sous le nom d’ «attachement préférentiel». Grâce au processus de croissance et d’attachement préférentiel, un pro- cessus «les riches deviennent plus riches» est observé, ce qui signifie que les noeuds fortement connectés acquièrent plus de liens que ceux qui sont moins liés, conduisant à l’émergence naturelle de quelques «hubs» fortement connectés. La taille du noeud est proportionnelle au degré de connexion du noeud. La distribution des degrés de réseau résultant suit la loi de puissance. Image : [86]. b) Représentation graphique de la dif- férence entre un réseau aléatoire ( à la gauche) et un réseau «scale free»( à la droite). Image : [88].

1.14.1 Construction d’un réseau de co-expression

La construction d’un réseau de co-expression repose sur un principe simple : si plu- sieurs gènes appartiennent à un même module, ils auront tendance à être régulés par les mêmes facteurs et leurs niveaux d’expression auront tendance à se ressembler. La première étape nécessite la mesure de l’expression de gènes dans une population gé- nétiquement diverse avec des puces à ADN ou par séquençage à haut débit de l’ARN (RNA-Seq). Pour analyser et structurer les données, il existe plusieurs méthodes ana- lytiques. Une des mieux développées et des plus populaires est la méthode WGCNA [83, 90]. La quantité naturelle de variation dans l’expression des gènes entre individus est utilisée pour analyser comment l’expression d’un gène corrèle avec l’expression des autres gènes dans la population. Le résultat correspond à une matrice contenant toutes les valeurs de corrélation de Pearson entre chaque paire de gènes. Cette matrice est en- suite transformée pour générer «l’adjacence», qui représente une mesure de la force de connexion entre gènes.

Une fois le réseau construit, un point critique est de définir les modules du réseau. La mesure d’adjacence est transformée en une mesure plus robuste appelée «topologi- cal overlap»(voir Figure 1.10). Cette mesure prend en compte les connexions entre les gènes voisins de chaque paire de gènes du réseau. La connectivité d’un gène peut être définie par la somme de toutes les valeurs d’adjacence avec les autres gènes. Au sein des modules, les gènes «hub» sont définis comme ceux qui sont les plus connectés au sein de chaque module. Comme chaque module peut contenir entre plusieurs dizaines et plusieurs centaines de gènes, on peut réduire la dimension des données en agrégeant le comportement de ces gènes. Ceci peut être fait par une méthode de PCA, qui résume l’expression de tous les gènes dans le module par celle d’un gène fictif représentatif, appelé «eigengene» *.

Au-delà de l’identification de modules, une question importante concerne leur per- tinence et/ou importance biologique. Cet aspect de l’investigation n’a pas encore été établi de façon aussi solide que les méthodes de construction des réseaux. Plusieurs stra- tégies ont été utilisées par les investigateurs. Par exemple, il est possible de faire des

Figure 1.10 – Méthodologie pour générer des réseaux de co-expression à partir de pro- fils d’expression de gènes. Les réseaux de co-expression dépendent de la collection de profils d’expression génique à partir d’une population génétiquement diverse. Dans l’en- semble, les profils de gènes démontrent des similitudes dans les profils d’expression en raison de la corégulation transcriptionnelle. a) La première étape dans la construction de réseaux de co-expression de gènes consiste à calculer une matrice de corrélation entre chaque paire de transcripts. Ici, une représentation d’une telle matrice qui montre la corrélation entre les abondances des deux transcrits, soit les gènes TX1 et TX2. b) Les relations de la co-expression entre les gènes peuvent être quantifiées à l’aide des co- efficients de corrélation. c) Les ensembles de gènes corrélés sont groupés en utilisant des algorithmes standards pour identifier les «modules» de gènes co-exprimés. Ici, les modules sont représentés dans les boîtes noires. Les réseaux de co-expression peuvent être visualisés d’un certain nombre de façons, comme un «heatmap» dans lequel les corrélations entre les niveaux de transcription sont indiquées par ombrage plus foncé. d) Les réseaux peuvent aussi être représentés dans un espace multidimensionnel constitué de noeuds (gènes) et d’arêtes (la force de la corrélation). Ici on voit un example d’un module. Image :[91].

tests d’enrichissement pour tester si les gènes de modules identifiés sont enrichis signifi- cativement pour des gènes ayant des fonctions particulières (par exemple l’apoptose, le métabolisme, le cycle cellulaire). Ces tests se font à l’aide des annotations de gènes dans la banque de données «Gene Ontology (GO)», où chaque gène est classé de façon hiérar- chique dans différentes classes en fonction de leurs termes d’annotation («GO Terms»). Ce test permet de déterminer si les annotations des gènes de modules présentent des en- richissements pour certaines fonctions biologiques. On peut aussi tester si les gènes des modules sont exprimés de façon préférentielle pour certains types cellulaires spécialisés. Certains ont fait des études de simulation pour tenter de valider les modules [92]. Mal- gré l’utilité de ces tests, il est nécessaire de compléter l’analyse biostatistique par des expériences de validation biologique.

Une autre utilité de l’identification de modules de co-expression est d’intégrer ces données avec des données génétiques et phénotypiques. De façon semblable à une étude de eQTL, on peut tester si les valeurs d’expression des «eigengenes» (qui représentent les valeurs d’expression de tous les gènes d’un module) peuvent être liées ou associées à un phénotype. Ainsi, certaines études ont récemment intégré des analyses de réseaux avec des études plus classiques de eQTLs, ce qui a fourni des informations permettant de mieux comprendre et d’expliquer certains des caractères complexes. Par exemple, une étude a utilisé les réseaux de co-expression pour trouver un «module-QTL» lié au poids des souris [93]. Ces approches consistent à construire un réseau de gènes pour ensuite identifier des eQTLs liés au gène du réseau [94, 95].

Comme toute technologie, les études de réseaux biologiques posent des défis par- ticuliers (par exemple la grande dimension des jeux de données à analyser) et ont des limites techniques, incluant par exemple le bruit inhérent à la collecte de données et l’introduction de biais expérimentaux par la méthode d’échantillonnage.

Documents relatifs