• Aucun résultat trouvé

Chapitre 4 : Etude de la co-expression des gènes paralogues au sein de différents

3.3. Analyse de familles de gènes homogènes

Nous exploitons ensuite ces modules de co-expression pour classer les 3692 familles de gènes en deux catégories de familles, les familles homogènes et les familles hétérogènes. Nous définissons les familles homogènes comme celles ayant au moins 60% de leurs gènes contenus dans un seul module de co-expression qu’on appellera module principal. Les autres familles correspondent aux familles hétérogènes.

Concernant les familles homogènes, les gènes de ces familles n’appartenant pas au module principal ne seront pas pris en compte pour toutes les étapes de caractérisation de ces familles homogènes, notamment dans le chapitre 5.

103

Parmi les 3692 familles, 107 d’entre elles sont considérées comme homogènes dont 51 sont totalement incluses dans un seul module. Au total 15 modules sont des modules principaux pour les familles homogènes, ce qui signifie qu’ils contiennent en moyenne plusieurs familles homogènes.

La caractérisation des familles homogènes débute par des études d’enrichissements en termes GO et en voies de signalisation (Annexe B) avec l’outil PANTHER (Version 12.0) pour un seuil sur les p-valeurs corrigées de 0,05 (correction Bonferroni pour le nombre de termes testés). Les enrichissements en fonctions moléculaires et processus biologiques montrent que les gènes de ces familles homogènes sont particulièrement impliqués dans des mécanismes cellulaires fondamentaux comme la régulation de transcription ou le développement embryonnaire. De plus, nos analyses ont révélé que ces familles homogènes contenaient les familles des facteurs de transcription AP2 (TAP2), HOX et des gènes associés à la voie de signalisation NOTCH, tous connus pour être impliquées dans le développement neural (Prince & Pickett 2002; Eckert et al. 2005).

4.Discussion et conclusion

De nombreuses études, dont des travaux du consortium GTEx, ont utilisé la méthode WGCNA (Zhang 2003; Konopka et al. 2012; Voineagu et al. 2013; Ardlie et al. 2015; Pierson et al. 2015) pour extraire des modules de gènes co-exprimés.

Nous avons également appliqué cette approche WGCNA, mais pour la première fois sur les gènes paralogues dans leur contexte fonctionnel du cerveau afin de révéler les modules de co-expression de gènes. La corrélation des profils d’expression sous-jacente à WGCNA est une métrique qui permet d’identifier des relations linéaires du niveau d’expression des gènes. Il est reconnu que ce type de modèle permet déjà la production d’interprétations et d’hypothèses pertinentes et riches. Il s’agit donc d’un premier niveau de modèle qui pourrait être complété par d’autres qui modéliseraient des liens non linéaires.

Contrairement aux précédentes études sur les données du consortium GTEx, nous avons fait le choix d’inférer un unique réseau de co-expression en regroupant tous les échantillons sur tous les tissus afin d’identifier les modules de co-expression des gènes paralogues au travers des tissus cérébraux. Les études d’inférence de réseaux de expression qui travaillent par tissu ont souvent pour objectif de déterminer les

co-104

expressions spécifiques à un tissu donné. Nous avons fait le choix d’explorer les réseaux de co-expression générés au travers des tissus cérébraux pour aborder d’autres questions, comme celle de l’homogénéité d’expression au sein des familles de gènes,et d’adresser celle de la tissue-spécificité d’expression des gènes par un score dédié calculé par gène (voir Chapitre 3).

Un de nos objectifs étant de comparer les modules de co-expression aux familles de gènes et sachant que ces familles sont globalement de très petite taille, nous avons décidé d’optimiser le paramétrage de WGCNA pour qu’il infère des petits modules de co-expression composés de gènes fortement corrélés en co-expression. Parmi les familles de gènes, nous avons identifié des familles homogènes contenant des gènes avec un profil d’expression similaire au travers des tissus cérébraux. Les études d’enrichissement nous ont permis de montrer que ces familles homogènes étaient enrichies pour les familles des facteurs de transcription AP2, HOX et pour les gènes impliquées dans la voie de signalisation de NOTCH (Prince & Pickett 2002; Eckert et al. 2005). De plus, ces familles homogènes ont tendance à être impliquées dans des fonctions fondamentales de la cellule comme la régulation de la transcription et également dans le développement neural.

Des travaux précédents sur l’expression des paralogues ont déterminé que les paires de gènes paralogues ont tendance à être co-exprimées juste après l'événement de duplication, puis évoluent pour finalement être exprimées dans différents tissus par la sous-fonctionnalisation ou la néo-fonctionnalisation (Lan & Pritchard 2016). A partir de nos analyses de co-expression, nous avons identifié un nombre relativement faible de familles de gènes homogènes, selon notre définition des familles homogènes. Les familles identifiées comme hétérogènes sont constituées d’une majorité de gènes qui ne sont pas co-exprimés, comme par exemple des gènes exprimés dans différents tissus en raison vraisemblablement d’une sous-fonctionnalisation ou d’une néo-fonctionnalisation. La fonctionnalisation des paralogues étant associée à leur rétention et donc à une divergence au cours du temps, nous pouvons faire l’hypothèse que les familles homogènes sont composées de gènes ayant peu divergés, donc issus d’une duplication récente, ou encore ayant subi une sous-fonctionnalisation de leur rôle biologique et non de leur expression.

Pour la suite du projet nous allons évaluer si les gènes co-exprimés ont tendance à être issus de duplications récentes. Nous allons également étudier comment l’intégration des

105

informations de co-expression et de tissu-spécificité permettent de faire progresser notre compréhension de la biologie des gènes paralogues.

107

Chapitre 5 : Expression tissulaire et co-expression des