• Aucun résultat trouvé

Production des réseaux gènes sur la base de la proximité sémantique

Chapitre 3 : Reconstitution des Voies Biologiques (Contribution)

B. Gene Ontology, distance sémantique et modélisation des voies biologiques

2. Production des réseaux gènes sur la base de la proximité sémantique

L’approche que nous proposons ici est une approche simple basée sur l’application d’une distance sémantique qui tient compte de la spécificité de GO. Dans GO comme cela est mentionné précédemment, un vocabulaire contrôlé a été développé spécialement pour décrire les processus biologiques (BP). Les produits de gènes, notamment de l’espèce humaine, ont été annotés par ce vocabulaire. Nous supposons ici que des gènes proches sémantiquement sur la base des annotations GO BP interviendraient dans les mêmes voies biologiques.

Notre démarche est basée sur deux étapes essentielles (Figure 41).

i. Le calcul de la similarité sémantique pour évaluer cette proximité entre gènes : Ici nous avons dans un premiers temps extrait la base d’annotations de GO. Puis nous avons filtrés les annotations de l’ontologie Biological Process. Nous avons par la suite implémenté un code Python pour le calcul de la similarité sémantique et la convertir en matrice de distance que nous utilisant pour l’étape de regroupement.

ii. Une étape de regroupement pour regrouper les gènes proches : Nous avons implémenté aussi un code Python qui permet de tester plusieurs algorithme de regroupement grâce au package Scikit59.

 Vers la fin du processus, nous voulons avoir des groupes de gènes qui peuvent reconstituer les voies biologiques en y incorporant les données d’interactions (répertoriées dans les bases de données).

2.2. Validation

Pour la validation de cette approche, nous avons proposé la démarche de la Figure 42. A partir de la base de données KEGG pathway60, nous avons extrait neuf voies biologiques (voir Table 5) : des voies de signalisation cellulaires, des voies métaboliques et des voies de maintien. Nous avons décidé de tester deux distances sémantiques, GS2 (Ruths et al. 2009) et Wang (Wang et al. 2007) sur les annotations BP de ces gènes et de tester deux méthodes de regroupement. Les distances choisies ont été développées spécialement pour la mesure de la proximité sémantique sur la base de Gene Ontology.

59http://scikit-learn.org/stable/modules/clustering.html

Figure 41 : Approche pour la prédiction de voies biologiques. Les cadres représentent les codes Python que nous avons développé les losanges représentent les entrées et sorties. A partir d’une liste de noms de gènes tirée au hasard, notre code génère les annotations GO dans l’ontologie biological process. Sur la base de ces annotations, les similarités sémantiques sont calculées et une matrice de distances est générée. Après une étape de regroupement (clustering) des gènes similaires.

Figure 42. Démarche de validation de l’approche de modélisation des voies biologiques basées sur la similarité sémantique. Nous sommes partie d’un ensemble

Nous avons fait varier le nombre de clusters à la sortie et comparer les résultats à nos données de départs. Le nombre de clusters à la sortie varie entre 3 et 9 clusters pour chaque distance et chaque algorithme de regroupement, ce qui nous permet d’évaluer la sensibilité de la technique. Le but étant de voir si on arrive à dissocier les catégories ou bien même les voies biologiques avec une des techniques.

Table 5. Voies biologiques choisies pour la validation de la démarche de reconstitution des voies biologiques. Entre parenthèse, nous avons inscrit les diminutifs des voies biologiques que nous avons utilisés pour la suite.

Catégories Voies biologiques KEGG Nombre de

produits de gènes

Métabolisme Métabolisme des Acide Gras (Fatt) 6

Voie du Pentose Phosphate (Pent) 18

Métabolisme du Rétinol (Retinol) 19

Métabolisme de la vitamine B6 (Vit B) 5

Système excréteur

Réabsorption de l’eau par régulée par la Vasopressine (Vaso Ab)

17

Cycle cellulaire Voie de signalisation des estrogènes (Estro) 34

Voie de signalisation des récepteurs des cellules T (T Cell)

63

Voie de signalisation des chimiokines (Chemo) 49

Cycle cellulaire Apoptose (Apop) 49

Dans la Figure 43 et la Figure 44 sont présentés les résultats observés pour la distance GS2 et correspondant à l’obtention de six clusters avec deux algorithmes de regroupement. Nous montrons ici les résultats de deux expériences pour une seule distance et six clusters à la sortie pour montrer le processus d’analyse, sachant que les résultats des autres expériences sont similaires.

Nous remarquons ici que les gènes appartenant à des réseaux différents sont distribués sur plusieurs clusters. Plusieurs raisons peuvent expliquer cette distribution hétérogène :

- Un gène peut être impliqué dans un ou plusieurs réseaux biologiques

- Les annotations utilisées pour les gènes sont très hétérogènes (niveau de précision variable)

Figure 43. Résultat du regroupement pour la distance GS2 couplé à l’algorithme Clustering Hiérarchique. En haut, la représentation du résultat du regroupement obtenu par clustring hiérarchique, la barre horizontale rouge représente le site de coupure pour avoir 6 clusters et les différents clusters de gènes obtenus sont représentés par différentes couleurs. En bas, un histogramme représentant la distribution des gènes appartenant aux différents clusters sur les voies biologiques de la Table 5.

Pour remédier à ces deux inconvénients, nous avons adopté une nouvelle stratégie basée sur l’utilisation de la distance entres termes au lieu de la distance entre gènes pour l’évaluation de la proximité sémantique. Le but de cette stratégie est de voir si on peut identifier des clusters de termes GO spécifiques d’une voie KEGG. Nous avons décidé de prendre les voies KEGG une par une de procéder à une annotation des gènes qui la constituent, d’homogénéiser les annotations en ne prenant que les annotations appartenant au même niveau et de produire des clusters de termes GO et de voir s’il y a au moins un cluster qui regroupe la totalité des annotations ou au moins qui « absorbe » une grande partie du signal. On appelle ici signal, une annotation qui appartient à un cluster. Pour la notion de niveaux, nous avons adopté l’algorithme de Dijkstra (Dijkstra 1971) pour le calcul du plus court chemin. Nous considérons le niveau de précision comme le plus court chemin entre la racine et le terme en question. Cette

Figure 44. Résultat de regroupement pour la distance GS2 couplée à l’algorithme K-mean. Dans cette expérience, nous avons généré six clusters. . Pour chaque cluster nous avons attribué une couleur. Chaque barre de l’histogramme représente le nombre de gènes appartenant à une ou plusieurs voies KEGG selon l’indication en haut de la barre. Sur cet histogramme nous avons représenté la distribution des gènes appartenant aux différents clusters générés sur les voies KEGG.

Nous avons donc généré les annotations BP de notre groupement de gènes de départ, et nous avons fait une extension aux ancêtres. Nous considérons que si un terme annote un gène tous ses parents l’annotent aussi. Nous avons fait varier le niveau de précision de 5 à 7 car une grande partie des termes se trouvent entre ces deux niveaux. Notre hypothèse de travail est que les termes hauts dans GO (près de la racine) sont très généraux et pas assez informatifs ; nous aurons donc un échantillon assez uniforme ce qui va biaiser notre regroupement. Les termes très bas dans GO (prés des feuilles) sont très précis et donc annotent peu de gènes qui de plus seront très dispersés. C’est pourquoi nous avons opté pour des niveaux équidistants de la racine et des feuilles (entre 5 et 7). Nous avons implémenté cette approche sous Pythons. Nous présentant dans la Figure 45 les résultats de l’approche pour la voies de signalisions des récepteurs des cellules T. Dans cette expérience, nous sommes partis des 63 gènes de la voie de signalisation ; 24 gènes seulement possèdent au moins une annotation des niveaux 5 ou inférieurs dans l’ontologie Biological Process dans GO. L’expérience montre que les signaux de cette voie biologique et des gènes qui la composent sont répartis sur l’ensemble des clusters et ceci quel que soit la distance, la méthode de clustering et le nombre de clusters générés. Nous ne pouvons donc pas sur la base de cette approche regrouper les gènes qui appartiennent aux mêmes voies biologiques. Il en a été de même pour tous les autres réseaux biologiques, même en faisant varier la distance. Deux raisons peuvent expliquer ces résultats. Une première explication est la nécessité de filtrer les données ; en effet, le bruit de fond pourrait être responsable de l’étalement du signal. Un filtre en fonction de l’enrichissement et de la

pertinence de l’annotation pourrait améliorer le résultat en éliminant les annotations non pertinentes.

Figure 45. Distribution des signaux des gènes de la Voie de signalisation des récepteurs des cellules T dans les différents clusters. Chaque colonne représente un cluster et chaque ligne un gène. La coloration rouge représente au moins une annotation du gène sur la ligne qui appartient au cluster (en colonne). Pour cette expérience, nous avons fait varier le nombre de clusters générés (9, 20 et 100). Les flèches bleues indiquent les limites de chaque expérience. Pour cette figure, nous avons utilisé la distance GS2 en prenant en compte les termes GO de niveau 5 seulement.

Une autre explication serait l’utilisation la proximité sémantique basée sur les annotations dans l’ontologie « Biological Process » de GO comme source d’informations. En effet, une voie biologique est un ensemble de gènes en interaction pour assurer une fonction biologique bien déterminée. Si GO nous renseigne sur la fonction biologique, aucune information n’est donnée sur l’interaction d’où la nécessité d’introduire une autre source d’information sur l’interaction.

Nous avons donc pensé à un système de reconstitution des voies biologiques un peu plus complexe qui intègre deux notions : la proximité sémantique et l’interaction biologique. Pour cela nous avons entamé une collaboration avec le Laboratoire en Informatique en Programmation Algorithmique et Heuristique (LIPAH) de la Faculté des Sciences de Tunis. Que nous allons présenter dans ce qui suit/

C. Recherche de communautés pour la modélisation des voies