• Aucun résultat trouvé

Chapitre 2 : Base de référence et caractérisation des gènes paralogues

3. Résultats

3.2. Caractérisation des familles de gènes

La première caractéristique d’une famille de gènes est sa taille, soit le nombre de gènes qui la composent. La taille des familles est variable mais elle est au minimum de deux gènes. Une famille de gène de taille 1 correspond à un singleton.

Les familles de gènes ont été collectés à partir des travaux de (Chen et al., 2013 ) reposant sur la méthode TreeFam (voir Méthode Chapitre 2).

49

Les familles de gènes de Chen et al., 2013 :

Parmi les 12346 gènes dupliqués, on compte 3692 familles de gènes (Figure 15). La taille de famille la plus faible est donc de 2 gènes et la plus élevée est de 57 gènes. La moyenne de la taille des familles est de 3.8 et la médiane est de 3. On observe un grand nombre de familles de taille 2 (1735 familles) ce qui correspond à 47% des familles de gènes. La majorité des familles sont donc de petite taille (3ème quartile: 4).

Figure 15: Taille des familles de gènes (TreeFam)

Distribution de la taille des familles de gènes obtenues à partir de Chen et al., 2013.

Taille des familles de gènes et type de duplication :

Le type de duplication associé à chaque gène paralogue a été collecté à partir des travaux de Singh et al., 2014. Les types de duplication correspondent aux WGDs et aux SSDs. Les SSDs sont aussi caractérisés en fonction de la période de leur évènement de duplication, c’est-à-dire avant ( oSSD ), après ( ySSD ) ou pendant (wSSD) la période de WGD. Dans ce chapitre, les gènes qui ont été retenus à la suite d’un évènement WGD et SSD appartiennent aux deux catégories.

Nous cherchons à savoir si la taille des familles est la même en fonction du type de duplication. En effet, nous avons observé pour chaque gène paralogue, la taille de la famille à laquelle il appartient en fonction du type de duplication dont il est issu. La Figure 15 illustre la distribution de la taille des familles en fonction du type de

50

2, puisque l’on s’intéresse uniquement aux gènes dupliqués, et la taille maximale est de 51 gènes (certains gènes de Chen et al., 2013 n’ont pas l’annotation sur le type de duplication) retrouvée pour les SSDs.

La distribution des gènes WGDs est très proche de celle des SSDs. La médiane de ces deux distributions est identique (3 gènes). En revanche la moyenne est légèrement différente (4.0 et 4.5 respectivement). Les moyennes des tailles des familles pour ces deux catégories de gènes WGD et SSD sont significativement différentes (t-test de Welch, p-value=0.000228). Les tailles des familles des SSDs sont plus grandes que celles des WGDs.

Concernant les familles des gènes de type ySSD, nous visualisons qu’elles sont plus grandes (médiane : 4 et moyenne : 6.0) que pour les autres catégories de SSDs. Ainsi, la taille des familles de gènes chez les SSDs dépend de la date de l’évènement de duplication. Afin d’évaluer si la différence de taille de familles entre les gènes WGDs et les gènes SSDs peut s’expliquer par l’influence du type de duplication (au-delà d’une possible influence du fait que les duplications WGD ont un âge supérieur ou égal à la majorité des duplications SDD), nous comparons la moyenne des tailles des familles pour les gènes WGDs à celle des gènes wSSD (i.e. l’événement de duplication SSD a eu lieu à la même période que les WGDs) par un test de Welch. Les familles des wSSDs sont significativement plus grandes que les familles des WGDs (p-value = 8.819e-07, moyenne WGD = 4.04, moyenne wSSD = 4.75). La taille des familles dépend non seulement de l’âge de la duplication mais également du type d’évènement de duplication.

51

Figure 16: Taille des familles de gènes pour chaque type de duplication

Distribution de la taille des familles de gènes représentée sous forme de boîtes à moustache pour les gènes issus de chaque type de duplication (WGD, SSD, ySSD, wSSD, oSSD). La taille minimum des familles de gènes est de 2 et la taille maximum est de 51 gènes.

Fonction biologique des gènes par rapport au type de duplication :

Nous nous intéressons ensuite à l’ontologie des gènes dupliqués en évaluant la surreprésentation de certains termes reliés aux fonctions moléculaires et aux processus biologiques. Ces analyses ont été effectuées pour les différents types de duplication ainsi que pour les différentes catégories de datation des gènes SSDs avec l’outil GOStat sous R (Table 3).

Des différences importantes d’annotation en termes ontologiques peuvent être observées pour les deux catégories de gènes SSDs et WGDs. Les WGDs ont des fonctions moléculaires fortement liées à la régulation transcriptionnelle tandis que les SSDs sont plutôt associés à l’activité réceptrice des cellules et à la transduction du signal. Concernant les processus biologiques, les WGDs ont tendance à être impliqués dans des processus biologiques reliés aux développements anatomiques et nerveux.

52

Table 3: Ontologie des groupes de gènes de différents types de duplications

Termes ontologiques significativement (p-valeur < 0,05) associés à chaque type de duplication. Utilisation de l’outil GOStat sous R.

Référence

Gènes paralogues (14472)

Termes GO Fonctions moléculaires

WGD (6038) “DNA binding protein kinase”, “transcription activity” SSD (5170) “Olfactory reception activity”, “transmembrane

signaling”, “receptor activity”

SSD-younger (2212) “Olfactory reception activity”, “transmembrane signaling”, “receptor activity”

SSD WGD-old (1565) “Cytokine receptor activity”, “extracellular matrix structural constituent”, “purinergic receptor activity” SSD-older (1395) “Catalytic activity”, “anion binding”, “nucleotide binding”,

“ion binding”

Processus biologiques

WGD (6088)

“System development”, “anatomical structure development”, “nervous system development”,

“anatomical structure morphogenesis”

SSD (5144) “Detection of chemical stimulus”, “sensory perception of smell”